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内容提要 


本书系统讲述概率论的基本概念、方法、理论和应用。内容有事件与概 
率，条件概率与统计独立性，随机变量与分布函数，数字特征与特征函数，极 
限定理等五章。每章有简要的小结并配有精选的习题。只假定读者具有微 
积分基础知识，可供高等学校数学类专业作为教材使用，也可供理工科各专 
业和经济、金融类专业作为教学参考书使用。 

本书前两版为各高校广泛采用，普遍反映体系合理，材料丰富，结构严 
密，文字通顺，很适合作为教材使用。实践证明，此书理论性较强，但叙述深 
人浅出，易于接受，涉及面广，强调应用，有利于读者进一步发展。新版增添 
不少精彩内容与应用实例，对表述加以优化，对习题作了调整并新设解答。 



第三版前言 


本书的前两版受到普遍的欢迎 ：兄弟 院校广泛采用，广大师生 
热情 肯定； 逐年加印，累计发行量逾30 万册； 第一版获第一届国家 
级优秀教材奖，第二版又获教育部科技进步奖。这缘于时代的需 
要，也说明作者试图写出一本既有苏联教本的系统严谨、又有美国 
书籍的生动活泼、体现我国教学经验、理论与应用兼备的教材的夙 
愿得到一定程度的实现。 

复旦大学编的《概率论》是根据1977年理科教材编写会议的 
计划为即将高考入学的新生而赶写的教材，初始定位是教学参考 
书，因此决定写全概率、统计、过程三册。《概率论基础》作为它的 
第一册，在以北京大学为主审单位有全国14所兄弟院校26名代 
表参加的广州审稿会中获得一致的好评，决定作为教科书立即出 
版，因而成了“文革”后的第一本，先入为主地奠定了它后来的 
地位。 

《概率论》的四位编写者中我承包第一册是自然的分工，因为 
“文革”前复旦大学数学系的概率论课由我上，所以我已写过66、 
67届两本讲义，在20世纪70年代又写过一本油印教材。本书第 
一版的结构大体沿用讲义，内容则有重大扩充，编写时间前后不过 
百日。 

编者期待本书通过下列几个方面形成自己的特色。 

第一，只假定读者具有微积分的基础知识，但把公理化结构贯 
彻到底，以使概率论的重要概念如事件、概率、随机变量、独立性、 
收敛性等都有严格的定义，只留少数几个要用测度论才能证明的 
结论。不过这部分内容只用细线条进行，对初学者并不苛求。 



第二，与通常教本相比，用较多篇幅介绍古典结果和离散场 
合，在引入概率、随机变量、数学期望、极限定理时均是如此，这为 
读者提供更多概率直观，避免了分析化倾向，而且似慢实快。此 
外，本书采用模块式结构以适应多种教学需要。 

第三，充分重视分布，特别是它们的个性和彼此的联系。分布 
是一个个数学模型，沟通理论与应用，在概率花园里，它们是百花， 
这是概率论的特色之一。本书用伯努利试验串起离散型分布，用 
泊松过程串起连续型等待时间分布，并形成对照。概率论的三大 
分布均设专节介绍，统计学三大分布都有理论推导。 

第四，关心概率论的应用，这主要通过大量实例体现。各版在 
这方面都有所增益。要在极短的篇幅里扼要而清晰地介绍一种重 
要应用甚至一个交叉学科，难度很大。虽作努力，但囿于作者的水 
平和实践，遗憾甚多。例如关于概率论在统计物理学和遗传学中 
的重要应用，就未能展开。 

第五，把趣味性作为一个子目标。 

第六，每章有简要的小结并配有精选的习题。 

总的说，写第一版时还有不少条框，因此下笔谨慎小心。1996 
年出第二版时补上第一版有意略去的一些材料并增添许多新内 
容，但时间较多花在文本的规范化上面。此次准备第三版有充裕 
的时间，因此反反复复修改，希望较充分表达自己的想法。 

由于本书的结构受到一致的肯定，这次未加更改。因此修改 
的重点放在表述的优化和增添典型实例。 

有些内容是新增的。例如，具有历史意义的正态分布的高斯 
推导被写入正文。又如用“典型分解”讲解二元正态，这既突显它 
的特质，也省去繁复的计算。再如在不相关与独立性的讨论中指 
明了二值变量的特殊地位。 

不少段落作了改写。最大的变动集中在“随机变量的函数及 
其分布”、“方差，相关系数，矩”与“伯努利试验场合的极限定理” 
这三节。另外，新版以新颖的“机票超售”问题代替传统的“车间 
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用电”问题贯串全书。 

许多表述作了仔细修改。新增实例十余则，特别强调概率论 
在数理统计中的基础性地位，从上一版起也反映了近年来概率论 
对金融学的成功应用。 

利用出新版的机会，对习题作了较大调整，又新设了习题解 
答，对全部数值题给出答案，使对学生的训练更加到位。为适应不 
同需要，本书配题较多，共有习题270道，教学中选用半数即可。 

配合新版还编写了配套的教学指导书，为使用本书的师生提 
供全面的指导。 

最后，编制了索引，这样一来，配合目录和常用分布一览表，读 
者可以方便实现各种检索。 

希望通过这些修改使本书的质量有所提高。预料书中还会存 
在不少缺点与错误，热情期待广大师生的批评、指正。 

标有星号的节、段内容较专门，又有相对独立性，跳过它们不 
损害全书的连贯。新版篇幅略有增加，如为学时所限，建议舍去相 
对独立的熵与信息一节和相当专深的最后两节。 

写一本教材要感谢很多人。在我的概率论早期生涯中，得到 

郑绍濂| 、吴立德、陶宗英、汪嘉冈、 | 何声武| 、卞国瑞、徐家鹄等师友 
的大量帮助，后来又接受了许多人的恩惠，前后三版的审稿人和出 
版社编辑为本书付出大量心血，在此一并致谢。 


李贤平 
2010年元宵节 
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第二版前言 


本书第一版受到出乎意料的 欢迎： 各兄弟院校广泛采用；发行 
20余 万册； 获第一届国家级优秀教材奖。这应归功于时代的需 
要，也说明作者试图写出一本既有前苏联教本的系统严谨，又有美 
国书籍的生动活泼，体现我国教学经验，理论与应用兼备的教材的 
目标得到一定程度的实现。 

广大师生的热情反映和意见，写作时就存在的不少遗憾，陆续 
发现的一些不足甚至错误，18年来在教学和科研中的些许心得， 
这些成了第二版修改的依据。 

本书的结构受到一致的肯定，这次未加更改，只是重写了过于 
薄弱的数字特征部分，因而增加一节，并恢复了初版时因篇幅考虑 
而删去的全书小结。 

增写了不少典型应用事例，补写上几个影响学科初期发展的 
名例，改写了 一些平淡无味的实例，这些使本书的理论与应用更为 
均衡，更为尊重历史事实，也更准确地反映概率论这一学科目前在 
整个自然科学和社会科学中的重要地位。相信也增添了本书的趣 
味性。 

一种分布就是一个数学模型。初版重视分布及它们之间联系 
的传统得到发扬。正式引入负二项分布与埃尔朗分布，使两个等 
待时间分布序列的对比更为明显。改动了一些例题与习题。这样 
一来，本书把分布按重要性分成 三类： 第一类三大分布有专门的节 
加以 介绍； 第二类包括十几种重要分布，在正文中指明其背景、性 
质以及它与其他分布的 关系； 第三类则多数在习题中出现。最后 
在附录一中汇总。关于多元分布，新版也较前重视。 



几个定理的证明被局部更动，多数为改善，少数为改正。增添 
了唯一的一个定理（移植自浅野、江島两位先生与作者合著的一 
本日文书），用极其简练的办法证明了重要的多元中心极限定理。 

习题是本书的重要组成部分。这次略作调整，基本题约占四 
分之三，与正文紧密配合，标有星号的题目对正文作了补充，双星 
号的是难题。为适应不同需要，配题较多，教学中选用约半数即 
可。 

以上是关系全局的一些较大变动，其他增删所在多是。定理、 
公式、图表的编号作了统一编排。关键词附上英文，重要数学家的 
名字也都标出原文，译名有些更动。希望通过这些修改能使原书 
的质量有所提高。预料书中仍会存在不少缺点与错误，欢迎广大 
师生批评、指正。 

修改后的第二版篇幅略有增加，如为学时所限，建议舍去相对 
独立的熵与信息一节和相当专深的最后两节。 

在我的概率论生涯中，得到郑绍濂、吴立德、陶宗英、汪嘉冈、 
何声武、卞国瑞、徐家鹄等师友的许多帮助，高尚华为本书的前后 
两版付出大量心血，缪铨生教授主持了第二版的审稿，在此一并 
致谢。 


李贤平 
1996年中秋 
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第一章事件与概率 


§1. 随机现象与统计规律性 

一、 随机现象 

概率论 （probability theory ) 是研究随机现象的数量规律的数 
学分支.本节概述它的研究对象和特殊地位. 

为了说明什么是随机现象，让我们先来看一个例子.航空公司 
电脑订座系统的普遍采用给旅客和公司都带来极大的方便，但是 
也对管理工作提岀更高的要求.例如一架200座的飞机到底应岀 
售多少座位？ 

简单而常用的方法是限定出售200座.不过，这并不是一个很 
好的答案，因为常有订了座位的旅客临时不来上机，出现空位，造 
成浪费.于是就实行超售，即在飞机起飞前出售的座位超过实有的 
座位. 

据统计，国内航班中订座而到时不来上机的旅客超过5%，因 
此若照实有座位数售座，则不可避免会岀现大量空位.这些空座位 
的浪费，不仅使有些想搭乘此航班的客人失去了乘机的机会，而且 
也给航空公司造成经济损失，最后也被航空公司用提价的方式转 
嫁给旅客. 

因此，超售是正确的选择.但是超售会造成拒登机，即有些持 
票者上不了机.虽然航空公司可以通过给自愿推迟者某种补偿 
(譬如提供一张免票或免费安排食宿等）来化解矛盾，但还是会带 



来种种负面影响，使公司蒙受损失. 

从理论上讲，超售越多，空位损失越小，但拒登机的可能性越 
大; 反之，超售越少，拒登机的可能性越小，但空位损失会越大，因 
此这是一个优化问题. 

航空公司要确定准确的超售数额，这就要求确定该航班汀座 
旅客不来上机的人数，但是这个量在登机前是无法准确确定的.订 
座的旅客为什么不来上机呢？原因各别，但大体上都是受一些偶 
然因素的影响，例如计划变动，行程更改，交通延误以及改乘其他 
航班等等.因此这里我们要处理的是一个受许多偶然因素影响的 
量，这正是概率论研究的对象. 

超售问题是很典型的概率论问题，用概率论方法可以给这个 
问题以相当完满的解决.这里略述思路 :假定 每个订座旅客准时上 
机的可能性为95%，则采用适当的概率模型可以算出在不同的岀 
售额/ V 下，发生拒登机的可能性 P 列于 下表： 


N 

201 

202 

203 

204 

205 

206 

207 

P 

_1 

0. 000 

0. 002 

0. 007 

0.015 

0. 032 

0. 062 

0. 109 


航空公司可以根据这些数据制定自己的超售和补偿方案.实 
践证明，超售带来巨大的经济效益，而且以超售为起点，当代航空 
业已发展出一套很先进的管理方法——收益管理. 

类似的例子在许多实际问题中出现，解决这类问题当然具有 
重要意义.它们都牵涉到一类现象——随机现象，要求处理一类变 
量——随机变量，它的数值受许多偶然因素的影响，事先无法 
确知. 

原来，在自然界和人类社会中都存在着两类不同的现象. 

当我们多次观察自然现象和社会现象后，会发现许多事情在 
一定的条件下必然会发生.例如在没有外力作用的条件下，作等速 
直线运动的物体必然继续作等速直线 运动； 又如在生活中，水加热 
到 10( TC 时必然会沸腾等等.这种在一定条件下，必然会发生的事 
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情称为必 然事件 .反之，那种在一定条件下，必然不会发生的事情 
就称为 不可能事件. 例如在不受外力作用的条件下，作等速直线运 
动的物体改变其等速直线运动状态是不可能的. 

从所举例子中看出，必然事件和不可能事件，虽然形式相反, 
但是两者的实质是相同的.必然事件的反面就是不可能事件，而不 
可能事件的反面就是必然事件. 

所有这种现象我们称之为决定性现象，它广泛地存在于自然 
现象和社会现象中. 

但是在自然现象和社会现象中也还广泛存在着与决定性现象 
有着本质区别的另一类现象，上述机票超售问题就是一例. 

类似的例子还可以举出很多，例如用同一仪器多次测量同一 
物体的重量，所得结果彼此总是略有差异，这是由于诸如测量仪器 
受大气影响，观察者生理上或心理上的变化等等偶然因素引起的. 
同样地，同一门炮向同一目标发射多发同种炮弹，弹落点也不一 
样，因为炮弹制造时种种偶然因素对炮弹质量有影响，此外，炮筒 
位置的误差，天气条件的微小变化等等都影响弹落点.再如从某生 
产线上用同一种工艺生产出来的灯泡的寿命也有差异等等.总之， 
所举这些现象的一个共同的特点是 :在基 本条件不变的情况下 ，一 
系列试验或观察会得到不同的结果.换句话说，就个别的试验或观 
察而言，它会时而出现这种结果，时而出现那种结果，呈现岀一种 
偶然性.这种现象称为随机现象 （random phenomenon ). 对于随机 
现象通常关心的是在试验或观察中某个结果是否出现，这些结果 
称为随机事件，简称事件 （ event ). 例如过马路交叉口时可能遇上 
各种颜色的交通指挥灯，这是一个随机现象，而“遇到红灯”则是 
一个随机事件.以后我们一般都用等大写拉丁字母表示随 
机事件. 

二、频率稳定性 

正如恩格斯所指出的，表面上是偶然性在起作用的地方，这种 


• 3 • 



偶然性始终是受内部隐蔽着的规律支配的，而问题只是在于发现 
这些规律. 

人们经过长期的实践发现，虽然个别随机事件在某次试验或 
观察中可以出现也可以不出现，但在大量试验中它却呈现岀明显 
的规律性——频率稳定性. 

对于随机事件七若在 W 次试验中出现了 〃次，则称 




为随机事件4在 iv 次试验中出现的 频率. 

下面是关于频率稳定性的几个有名例子.援引这类例子是因 
为它们不但具有一定的权威性，而且都是可以反复验证的. 

在掷一枚硬币时，既可能出现正面，也可能岀现反面，预先作 
岀确定的判断是不可能的，但是假如硬币均勻，直观上出现正面与 
出现反面的机会应该相等，即在大量试验中出现正面的频率，应接 
近于50%，为了验证这点，历史上曾有不少人做过这个试验，其结 
果如下页所示 ®. 



掷硬币次数 

...-- 

出现正面次数 

4 040 

2 048 

12 000 i 

6 019 

24 000 

12 012 



又如，在英语中某些字母岀现的频率远远高于另外一些字母. 
在进行了更深入的研究之后，人们还发现各个字母被使用的频率 
相当稳定.例如，下面就是英文字母使用频率的一份统计表®.其 

① 引自格涅坚科 . 概率论教程 . 高等教育出版社，第 44 页 . 

② 引自 Brillouin L. Science and Information Theory. New York ： Academic Press, 
1956. 
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他各种文字也都有着类似的规律. 


字母 

空格 

E 

T 

o 

A 

N 

I 

R 

S 

频率 

0.2 

0.105 

0.072 

0. 065 4 

0.063 

0.059 

0.055 

0.054 

0.052 

字母 

H 

D 

L 

C 

F 

U 

M 

P 

Y 

频率 

0.047 

0.035 

0.029 

0.023 

0.022 5 0.022 5 

0.021 

0.017 5 0.012 

字母 

W 

G 

B 

V 

K 

X 

J 

o 

Z 

频率 

0.012 

0.011 

0.010 5 

0.008 

0.003 

0.002 

0.001 

0.001 

0.001 


近年来对汉语的统计研究有了很大的发展.关于汉字的使用 
频率已有初步统计资料，对汉语常用词也作了一些统计研究.特别 
是结合汉字输人方案等的研制，正在对汉字的结构作深入的统计 
分析.这些研究对实现汉字信息处理自动化无疑具有重要的意义. 

另一个验证频率稳定性的著名试验是由英国生物统计学家高 
尔顿 （ Galton ) 设计的.它的试验模 
型如图 1 . 1.1 所示. 

自上端放人一小球，任其自由 
下落，在下落过程中当小球碰到钉 
子时，从左边落下与从右边落下的 
机会相等.碰到下一排钉子时又是 
如此.最后落人底板中的某一格 
子.因此，任意放人一球，则此球落 
人哪一个格子，预先难以确定.但 
是实验证明，如放人大量小球，则 
其最后所呈现的曲线，几乎总是一 
样的.也就是说，小球落人各个格 
子的频率十分稳定.这个试验模型 
称为高尔顿板.试验中呈现出来的规律性，在学习第五章极限定理 
之后，就会有更深刻的理解. 








图 1.1.1 高尔顿板 
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另一呈现频率稳定性的有名例子是:在人类的生育中，男婴的 
22 

出生率约为 

同样，如果多次测量同一物体，其结果虽略有差异，但当测量 
次数增加时，就会越来越清楚地呈现出一些规 律性: 测量值的平均 
值在某固定常数附近波动，诸测量值在此常数两旁的分布呈现某 
种对称性.又如在射击的例子中，当射击次数不多时，炮弹的弹落 
点似乎是前后左右杂乱无章，看不岀什么明显的 规律; 但当射击次 
数增加时，弹落点的分布就会呈现出一定的规 律性： 如弹落点关于 
目标的分布略呈对称性，偏离目标远的弹落点比偏离目标近的弹 
落点少等等.其他如灯泡寿命等，在进行多次观察或试验后，也都 
可以发现类似的规律性. 

日常生活中也不乏有趣的例子，例如衣服和用具总在同样部 
位以相似的方式破损，下雨时地面各处总是差不多同时淋湿等等. 
读者只要多注意观察，就不难发现许多关于频率稳定性的有说服 
力的实例. 

上述种种事实表明，随机现象有其偶然性的一面，也有其必然 
性的一面.这种必然性表现为大量试验中随机事件出现的频率的 
稳定性，即一个随机事件出现的频率常在某个固定的常数附近摆 
动，这种规律性我们称之为统计 规律性 .频率的稳定性说明随机事 
件发生的可能性大小是随机事件本身固有的、不随人们意志而改 
变的一种客观属性，因此可以对它进行度量. 

对于一个随机事件七用一个数来表示该事件发生的可 
能性大小，这个数 P (^ l ) 就称为随机事件4的概率 （ probability ). 因 
此概率度量了随机事件发生的可能性的大小. 

对于随机现象，只讨论它可能出现什么结果，价值不大，而指 
出各种结果出现的可能性的大小则具有很大意义.有了概率的概 
念就使我们能对随机现象进行定量研究，由此建立了一个新的数 
学分支——概率论. 
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三、频率与概率 


既然概率 PM ) 度量了随机事件4发生的可能性大小，可以 

预料，在/ V 次重复试验中，若 p (4) 较大，则 频率/ ^(4) = 1 也较 

大.反之若 PM ) 很小，则心(>1)也很小，而且概率应与频率 
有许多相似的性质.以下我们先对频率的性质进行一番考察. 

首先，频率具有非负性 

F n (A)^0 ( 1 . 1 . 1 ) 

其次，对于必然发生的事件，在 iV 次试验中应出现 W 次.若以 
记必然事件，则应有 

F n ({})= 1 (1.1.2) 

还有，若>1及 B 是两个不会同时发生的随机事件，以表 
示4或 B 至少出现其一这个事件,则应有 

F n ( A + B )= F ,( A )^ F ,( B ) (1.1.3) 

这个性质称为频 率的可加性. 

当然还可以列出频率的许多性质，但上述三个性质是最基本 
的.例如，“不可能事件在 AW 欠试验中出现的频率为0”，“任何随 
机事件在/ V 次试验中出现的频率不大于1”，“对于有限个两两不 
会同时发生的随机事件也有频率可加性”，这些性质都可以由 
(1.1.1) 式 ，（1.1.2) 式及 （1.1.3) 式 推出. 

最后，根据上述频率稳定性的讨论似乎可以提出这样的猜想， 
即当 W 足够大时与 P (4) 应充分接近.这一想法有很大的 
启发性，在历史上它一直是概率论研究的一个重大课题.以后我们 
将会看到，在很一般的条件下，这个结论的确成立，但同时还须对 
问题的提法进一步明确化. 

频率与概率的上述关系有时还提供了求某事件概率的一种手 
段，即当/ V 足够大时，用它的频率来作为概率的近似值.以后我们 
将会看到，这种做法大有用处. 
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四、概率论简史 


概率论是一门研究随机现象数量规律的学科,一般把1654年 
作为概率论诞生的一年，这年中，法国数学家帕斯卡与费马就机会 
博弈中的一些问题作了通信讨论.后来惠更斯也加人研究.在这些 
研究中建立了概率论的一些基本概念，如事件、概率、数学期望等. 

其后，在对伯努利概型的深人研究中，发现了两种形式的极限 
定理——大数定律和中心极限定理，奠定了概率论在数学中的理 
论地位.这些发展与概率论在射击、保险、测量等领域的应用密切 
相关.这个时期先后对概率论作出重要贡献的有伯努利、棣莫弗、 
拉普拉斯、高斯和泊松，都是当时一流的数学家. 

经过早期的辉煌之后，概率论的发展有些停滞，极限定理的研 
究在18世纪和19世纪整整200年中成了概率论研究的中心课 
题，虽然内容和形式都有发展，但没有得到较好的解决.更严重的 
是概率论的严格的数学基础一直没有建立，从而游离在数学大家 
庭的边缘. 

20世纪是概率论复兴和大发展的世纪. 

首先，概率论的严格数学基础被建立起来，古典问题得到解决 
和深化，随机过程成为新的主题，研究领域明显扩大，内涵大为加 
深，概率论一跃成为数学的主要分支之一.这当中俄罗斯学派起了 
主导作用. 

其次，随着量子力学的创立和分子遗传学的发展，人们认识到 
无论是物理现象还是生命现象都维系着随机性，在人类社会生活 
中更是充满着不确定性，因此长期统治学术界的机械决定论迅速 
溃退，概率论的思想渗入各个学科成了近代科学发展的明显特征 
之一.近几十年来，概率论结合各个工程技术和社会学科，形成了 
大量边缘学科，如信息论、排队论、可靠性理论、数理金融学等. 

尤其值得指出的是，古老的统计学在20世纪初期由于引人概 
率思想，发展成为数理统计学 （mathematical statistics ) ，它以概率论 
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为理论基础，又为概率论的直接应用提供了有力的工具.二者联 
手，在强大的计算能力的支持下，已成为最有力的定量分析手段， 
在近代物理、无线电与自动控制、网络通信、质量管理、生物工程、 
医药和农业试验、金融保险业等等方面都找到了重要应用. 

§2. 样本空间与事件 


一、 样本空间 

从本节开始，我们将逐步引进概率论的基本概念.样本空间与 
事件是最基本的两个概念. 

对随机现象的研究必然要联系到对客观的事物进行“调查”、 
“观察”或“实验”，以后我们统称之为 （随机）试验 （ trial ), 并假定 
这种“试验”可以在相同条件下重复进行. 

我们感兴趣的是试验的结果.例如掷一次硬币，我们关心的是 
出现正面或出现反面，这是两个可能岀现的结果.假如我们考察的 
是掷两次硬币的试验，则可能岀现的结果有（正，正），（正，反）， 
(反，正 ），（ 反，反） 四种； 如果掷三次硬币，则结果还要复杂，但还 
是可以把它们描述出来.总之，为了研究随机试验，首先需要知道 
这个试验可能岀现的结果.这些结果称为 样本点 （sample point ), 
一般用 w 表示 • 样本点全体 构成样本空间 （sample space ) ，用表 
示.在具体问题中，给定样本空间是描述随机现象的第一步. 

下面举一些例子. 

[例 1] 在研究英文字母使用情况时，把样本空间选为12 = 
{空格， A ， B ， …， Z | 是适宜的，这个样本空间只有有限个样本点， 
是比较简单的样本空间. 

[例 2] 观察一小时中落在地球上某一区域的粒子数，可能 
的结果一定是非负整数，而且很难指定一个数作为它的上界，这 
样，可以把样本空间取为/2= 10,1，2,… | .这个样本空间含有无穷 
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多个样本点，但这些样本点可以依照某种次序排列出来，以后我们 
将称它的点数为可列个. 

[例 3] 讨论某地区的气温时，我们自然把样本空间取为 
/2=(-00 , 00 ) ，或 /2=[ a ，6]. 这个样本空间包含有无穷多个样本 
点，它们充满一个区间，不是一个可列集. 

[例 4] 考察地震震源时，可以把样本点取为 U ， y ， z ), 其中 x 
表示震源的经度，： K 表示纬度， z 表示深度.这时，样本空间是三维 
空间中某一区域. 

[例 5] 金融分析师把道 • 琼斯指数作为研究对象，每曰的 
指数涨跌用一条曲线表示，作为一个样本点，这时 
样本空间是函数空间，这类样本空间是随机过程 （stochastic 
process ) 理论的研究对象. 

以上例子可以看出，随着问题不同，样本空间可以相当简 
单，也可以十分复杂 • 

在今后讨论中，经常把样本空间认为是预先给定的.当然对于 
一个实际问题或一个随机现象，如何用一个恰当的样本空间来描 
述它也很值得研究.但是在概率论的研究中，一般都假定样本空间 
是给定的.这是必要的抽象，这种抽象使我们能更好地把握住随机 
现象的本质，而且得到的结果能广泛地应用.事实上，一个样本空 
间可以概括各种实际内容很不相同的 问题： 例如只包含两个样本 
点的样本空间既能作为掷硬币岀现正、反面的模型，也能用于产品 
检验中出现“合格品”及“废品”，又能用于气象中“下雨”与“不下 
雨”，以及公用事业排队现象中“有人排队”与“无人排队”等等.尽 
管问题的实际内容如此不同，但有时却能归结为相同的概率模型. 
我们后面常以摸球等作为例子也是由于这个原因，它能使问题的 
本质更为突出. 


二、事件 


有了样本空间的概念，就可以定义事件.我们还是从考察一个 
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例子开始. 

[例 6] 口袋中装有4只白球和2只黑球，我们考虑依次从 
中摸出两球所可能出 k 的事件.若对球进行编号，4只白球分别编 
为1，2,3,4号，2只黑球编为5,6号.如果用数对 GV) 表示第一次 
摸得〖号球，第二次摸得> 号球,则可能出现的结果是 

(1,2),(1,3),(1,4),(1,5)；(1,6) 

( 2 . 1 ) ,( 2 , 3 ),( 2 , 4 ),( 2 , 5 ),( 2 , 6 ) 

(3.1) ,(3,2),(3,4),(3,5),(3,6) ( * ) 

(4.1) ,(4,2),(4,3),(4,5),(4,6) 

(5.1) ,(5,2),(5,3),(5,4),(5,6) 

(6.1) ,(6,2),(6,3),(6,4),(6,5) 

把这30个结果作为样本点，则构成了样本空间.在这个问题 
中，这些样本点是我们感兴趣的 事件; 但是我们也可以研究下面另 
外一些 事件： 

1第一次摸出 黑球； 

^第二 次摸出 黑球； 

第一次及第二次都摸出黑球. 

后面这些事件与前面那些事件的不同处在于这些事件是可以 
分解的，例如为了 4出现必须而且只需下列样本点之一 出现： 

(5.1) ,(5,2),(5,3),(5,4),(5,6) 

( 6 . 1 ) ,( 6 , 2 ),( 6 , 3 ),( 6 , 4 ),( 6 , 5 ) 

前面的30个事件由单个样本点 构成； 后面这三个事件，每一 
个事件都是由若干个样本点构成的，总之，它们都是样本点的某个 
集合. 

所谓给定一个点的集合 S， 是指对于任何一个点0，都可以确 
定它是不是属于 S . 如果是，则记为 w e S ; 如果不是， 
则记为按照这种定义，单个点也是一个点集.习惯上还约定 
不包含任何点的集合也是一个点集，称为空集，记为 0. 

今后，我们把事件定义为样本点的某个集合，称某事件发生当 
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且仅当它所包含的某一个样本点出现. 

因此，虽然试验的全部可能结果在试验前就很明确，但是只有 
到了试验之后，才能确定某一特定的事件是否发生. 

我们把样本空间也作为一个事件，囟为在每次试验中必然 
出现中的某个样本点，也即必然发生，所以常称为必然事 
件. 类似地，我们把空集0也作为一个事件，它在每次试验中都不 
佘发生，称为 不可能 事件. 

必然事件在试验中必然发生.相反地，不可能事件0在任 
何试验中不可能发生，必然事件与不可能事件可以说不是随机事 
件，但为了今后研究的方便，我们还是把必然事件与不可能事件作 
为随机事件的两个极端情形来统一处理. 


三、事件的运算 


在一个样本空间中显然可以定义不止一个事件.概率论的重 
要研究课题之一是希望从简单事件的概率推算出复杂事件的概 
率.在实际生活中，往往要求我们同时考察几个在同样条件下的事 
件以及它们之间的联系.详细地分析事件之间的关系，不仅帮助我 
们更深刻地认识事件的本质，而且可以大大简化一些复杂事件的 
概率计算. 

下面就讨论事件间的关系及事件的运算，先讨论两个事件4 
与方之间的关系. 

若4中的每一个样本点都包含在中，则记为或53 
A 并称 4被包含于 亦 称事件 B 包含了事件 A 这时事件 4 发生 
必然导致事件 B 发生.例如若以4记“来到呼叫不超过5个”，以 
B 记“来到呼叫不超过6个”，则4 Cfi . 显然对任何事件必有0 
cAca 

如果 4 与同时成立，则称 4与 B 等价 或称 4等于 
A 记为4=1等价的两个事件同时发生，因此可看作是一样的. 

对于事件由所有不包含在4中的样本点所组成的事件称 
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为 4 的逆事件，或称 4 的对立事件，记为 3, Z 表示4不发生.例如 
若以4表示“来到呼叫不超过5个”，则： i 表示“来到呼叫超过5 
个”.显然，若是4的对立事件，则4也是3的对立事件，即3 = 
必然事件与不可能事件互为对立事件. 

其次，对于事件4及事件 A 定义两个新 事件： 

用或表示所有同时属于4及 b 的样本点的集合，称 
它为4与 忍的交 ，事件表示事件4与事件同时发生 • 

用4 UB 表示至少属于4或 b 中的一个的所有样本点的集 
合，称它为4与6的并，事件表示事件4或事件 s 或它们二 
者发生，也即表示事件4与事件 s 至少发生一个. 

若则表示>1与 s 不可能同时发生，称4与 B 互不相 
容 .样本点是互不相容的. 

本书特别约定 :对于 互不相容事件4与 I 我们称它们的并为 
和，并记作义+汉 

用表示包含在4中而不包含在中的样本点全体，称之 
为4与的差，事件 A - B 表示事件>1发生而事件 B 不发生. 

关于事件运算的顺序作如下约 定:先 进行逆的运算，再进行交 
的运算，最后才进行并或差的运算.这与数式运算中，先函数，再乘 
除,后加减的约定相似. 

用上面的记号可以把对立事件之间的关系表述如下 
/2,4门3=0，这也可以作为对立事件的定义.显然3 = /2-1 

事件运算成立如下德摩根 （De Morgan ) 定理，亦称对偶 原理： 

Ju^=An5, Ar^B=AV)B 

于是，定义了逆运算后，交与并可以互相表示，差也可以用它 
们表示： 

A ^ B = A\JB 
A-B =A D B - A U B 

因此本质上只需要两种运算 •.“ 交与逆”或“并与逆”，不过定 
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义 4 种运算自有其方便之处. 

有时用平面上某正方形中的图形来表示事件间的关系或运算 
较为直观，这种表示法称为文 （ Verm ) 图. 

事件仏4,：1，/11^,^，>1-5在图 1 . 2 . 1中分别以阴影 表出. 
不难理解相应于4的图形完全包含在 B 的图形 中以和 5 
互不相容，则相应于4和 S 的图形不相交. 






A-B 


图 1. 2. 1事件运算 

我们用例6来说明这些关系 .（* ) 中30种可能结果就是样 
本点全体，它们构成必然事件 Z 2. 

A 记第一次摸得黑球，则它由第5行及第6行的10个样本点 
构成; 这时; i 表示第一次摸得白球，它由第一行至第四行的20个 
样本点构成.显然4与3互不相容，而且4+3 

B 记第二次摸得黑球，它由下列10个样本点 构成： 

(1.5) ,(1,6),(2,5),(2,6),(3,5) 

(3.6) ,(4,5),(4,6),(5,6),(6,5) 

事件^ US 表示第一次或第二次中至少有一次摸得黑球，它 
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包含下列 18 个样 本点： 

(1.5) ,(1,6),(2,5),(2,6),(3,5),(3,6) 

(4.5) ,(4,6),(5,1),(5,2),(5,3),(5,4) 

(5.6) ,(6,1),(6,2),(6,3),(6,4),(6,5) 

事件表示两次都摸得黑球，它由下列两个样本点 构成: 
(5,6) ,(6,5) ，这是4与 B 共同包含的样 本点. 因此 C = AB . 

事件表示第一次摸得黑球而第二次摸出白球，包含了 
(5，1)，（5,2)，（5,3)，（5,4)，（6，1)，（6,2)，（6,3)，（6,4)等8个 
样本点. 

不难把上面定义推广到多个事件的场合. 

n 

例如，对于/ I 个事件枣，4，…人，用 A , UA 2 U - 或 U 岑 

i=l 

表示义，4,…，炎中至少发生一个，称为七，皂，…，炎的并，特别 
当义 ，皂 ，…,炎两两互不相容时，并特称为和，记作4 + 

或•相应地，用岑4…人或 rS 岑表 示岑， ^，…，人同时发生 

i = 1 i = 1 

等等. 

这时，对偶原理仍然 成立： 

u ^ = n n ^ = u ^ 

^ = I | — j i = i ^ = | 

并且有很明显的概率意义\•至少发生一个的 i 立面是一个也不发 
生； 全部发生的对立面是至少有一个不发生. 

对于可列个事件的场合，我们定义 

<» n 00 n 

U i4 t . = lim LM : ， H A^lim H 

i = 1 n ~^ 00 / = 1 i = 1 n ¥ 00 / = 1 

这时依然有对 i 禹原理. 

事件的运算成立下列关系式，它们的证明留给读者. 

(1) ^ W：AUB = BUA 9 ab = ba ； 

(2) ^ W :( AUB ) UC = AU ( BUC ) 9 ( AB ) C = A ( BC )； 

(3) HC = ACUBC 9 
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(4db) uc=(4uc) n(5uc). 

熟悉集合论的读者或许早就发现，事件间的关系及运算与集 
合论中或布尔 （ Boole , 1815— 1864) 代数中集合的关系及运算是完 
全相似的，而且这个相似性在建立概率论的严格数学基础时非常 
重要.不过，我们应该强调另一面，就是要学会用概率论的语言来 
解释这些关系及运算，并且会用这些运算关系来表示各种事件. 

[例 7] 若是三个事件，则 

(1) 所有这三个事件都发生可以表示为 M 

(2) 这三个事件恰好发生一个可以表示为 

(3) 这三个事件恰好发生两个可以表示为 

(4) 这三个事件中至少发生一个可以表示为 MUSUC 或 
ABC + ABC + ABC + ABC + ABC + ABC+ABC ； 

还有一种看似复杂的表示法，正是对偶公式，今后很有 
用. 

(5) A 发生而 B 与 C 都不发生可以表示为或或 
A -( BUC )； 

(6) 4与都发生而 C 不发生可以表示为或或 
AB - ABC . 

四、有限样本空间 

我们先考虑只有有限个样本点的样本空间，这种样本空间称 
为有 限样本空间. 这是最简单的样本空间，研究它有助于深人研究 
更为复杂的样本空间. 

若是有限样本空间，其样本点为％，0> 2 ，…在这种场合 
可以把的任何子集都当作事件.这时，样本点作为单点集，当然 
是事件.在这种样本空间中引进概率，只要对每个样本点给定 
一个数与它对应，此数 称为％ 的概率，并记之为 P ( A ) ,它是非负 
的，而且满足 

尸(叫）+尸(0> 2 )+…+尸(6>„)= 1 
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这样，我们对样本点定义了概率，用它来度量每个样本点出现的可 
能性的大小.由此出发，我们不难定义更为一般的事件的概率. 

定义 1.2.1 任何事件 4 的概率 PM ) 是 4 中各样本点的概 
率之和. 

按照这个定义，显然有 P ( n )= 1 , o ^ p (^)^ i . 

如在例6中，若定义每个样本点出现的概率均为^(这相当 
于假定各个球外形完全一样，并且摸球是随机的，各个球被摸到的 

机会均等），则得 p 4 ) =誌 ， p 5 ) =益 ， p ( c ) =盖， 

尸 = ，尸 M-b) = 备等等 • 

我们将在下一节研究一种特殊的有限样本空间. 

把上面做法推广到有可列个样本点的样本空间是不难的，这 
种空间称为 离散样本空间 .但是当把上面做法推广到不可列个样 
本点的场合，则会遇到实质性的困难，对于这种一般场合的讨论, 
以后将逐渐展开. 


§3.古典概型 

一、 模型与计算公式 


在讨论一般随机现象之前，我们先讨论一类最简单的随机现 
象.这种随机现象具有下列两个特征： 

(1) 在试验中它的全部可能结果只有有限个，譬如为〃个，记 
为叫， ，…，而且这些事件是两两互不相 容的； 

(2) 事件叫 ，叫 ，…，％的发生或出现是等可能的，即它们发 
生的概率都一样. 

这类随机现象在概率论发展初期即被注意，许多最初的概率 
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论结果也是对它作出的，一般把这类随机现象的数学模型称为古 
典概型.古典概型在概率论中占有相当重要的地位,一方面，由于 
它简单，对它的讨论有助于直观地理解概率论的许多基本概念，因 
此，我们常从讨论古典概型开始引入新的 概念； 另一方面，古典概 
型概率的计算在产品质量抽样检查等实际问题以及理论物理的研 
究中都有重要应用. 

显然，古典概型是有限样本空间的一种特例.可以选 n =\ co l9 
(0 29 -,(0 n \ 作为样本空间，而且此时应有 

P ((0 l )= P ( o ) 2 )= = P (( O n ) = — 

n 

对于任何事件它总可以表示为样本点之和，例如4=0^ + 
+…，因此由事件概率的定义 

P(i4)=P(<y ii )+P(<y l2 ) + •••+F((y. m ) 

= —+— + • • • +— = — (1.3. 1 ) 

n n n n 


所以在古典概型中，事件 >1 的概率是一个分数，其分母是样 
本点的总数〃，而分子是事件4中所包含的样本点的个数 m ， 由于 
，6> 12 ，… ，叫 m 的出现必导致>1的出现， B 卩它们的出现对 i 4 的出现 
“有利”，因此习惯上常称叫 1 ，叫 2 ，…，叫4的“有利场合”，这 
样， 


P ( A )=- 

n 


A 的有利场合的数目 
样本点总数 


(1.3.2) 


法国数学家拉普拉斯 （ Laplace ， l 74 9—1827) 在1812年把上 
式作为概率的一般定义.现在通常称它为概率的古典定义，因为它 
只适用于古典概型场合. 

古典概型有着多方面应用，产品抽样检查就是其中之一. 
产品抽样检查的技术，在各个生产部门中被广泛采用.许多大 
工厂产量很高，每天生产的产品数以万计，对这些产品的质量如果 
要进行全面的逐件检验通常是不可能的或是不经 济的; 另外，在有 
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些情况下,产品的检验方法带有破坏性（如电灯泡寿命检验和棉 
纱强度试验），这样，最适宜的检验方法是釆用抽样检查，即从产 
品中随机地抽出若干件来检验，并根据检验结果来判断整批产品 
的质量. 

关于产品的质量，可以有多种多样的衡量标准，例如可能要考 
虑产品的某种形状或尺寸，或把产品分成若干等级，我们先考虑最 
简单的情形，即把产品分成合格品（好品）与次品（废品）两个类型 
的场合. 

假如产品的好坏从外形上看不出来，而且我们又是随机抽样， 
那么任何一件产品被抽到的可能性都一样，这正是古典概型. 

有一个口袋，内装 a 只黑球，6只白球，它们除颜色不同外，外 
形完全一样（以后若非特别声明，均作此假定）.这样一来，当我们 
从袋子中任意摸出一球时，这 a + 6 只球中的任意一只被摸到的可 
能性都一样. 

若把黑球作为废品，白球作为好品，则这个摸球模型就可以描 
述产品抽样.假如产品分为更多等级，例如一等品，二等品，三等 
品，等外品等等，则可用装有多种颜色的球的口袋的摸球模型来 
描述. 

这种模型化的方法能使问题更清楚，更容易看出其随机性本 
质而不致被个别情况下的具体属性所蒙蔽.不仅如此，这种抽象化 
的模型带有普遍性，它还可以描述许多别的具体问题，从而有着多 
方面应用.例如种水稻地块的调查，某电视节目收视率的调查，某 
种疾病的抽查等都能用这个模型. 

事实上，古典概型的大部分问题都能形象化地用摸球模型来 
描述.以后我们经常研究摸球模型，意义即在于此. 

前节例6及其有关概率的计算是古典概型的一个例子，但并 
不是所有古典概型的事件的概率计算都这么容易.事实上，古典概 
型中许多概率的计算相当困难而富有技巧.计算的要点是给定样 
本空间和样本点，并计算它的总数，而后再计算有利场合的数目. 
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在这些计算中，经常要用到一些排列与组合公式. 

二、基本的组合分析公式 

1. 全部组合分析公式的推导基于下列两条 原理： 

乘法原理若进行戽过程有\种方法，进行4过程有 化种方 
法，则进行^过程后再接着进行4过程共有〃, xn 2 种方法（图 
1.3. 1). 

加法原理若进行^过程有\种方法，进行4过程有 化种方 
法，假定4过程与4过程是并行的，则进行过程次或过程皂的方 
法共有〜+化种（图 1.3.2). 




显然这二条原理可以拓广到多个过程的场合. 

2. 排列： 

从包含有〃个不同的元素的总体中取出 r 个来进行排列，这 
时既要考虑到取出的元素也要顾及其取出顺序. 

这种排列可分为两类 :第一 类是有放回地选取，这时每次选取 
都是在全体元素中进行，同一元素可被重复 选中； 另一类是不放回 
选取，这时一个元素一旦被取出便立刻从总体中除去，因此每个元 
素至多被选中一次,在后一类情况，必有 r ^ n . 

(1) 在有放回选取中 ，从〃 个不同的元素中取出 r 个元素进 
行排列，这种排列称为 有重复的排列 ，其总数共有^种. 
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(2) 在不放回选取中，从 n 个不同的元素中取出 r 个元素进 
行排列，其总数为 

A r n =n( n-1) ( n - 2) … （ n - r+1) 

这种排列称为选排列.特别当 r = n 时，称为全排列. 

(3) n 个不同的元素的全排列数为 

= l=7i! 

3. 组合： 

(1) 从 n 个不同的元素中取出 r 个元素而不考虑其顺序，称 
为组合，其总数为 


r r _( n \ _^n _n(n-l) •••( 打一 /~+1) 

rt= (rj = V\ = 



这里称为二项系数，是下列二项展开式的系数: 


(a+6) re = ^ (: 卜 6 ' 

(2) 若个不同的元素分成 A ： 个部分，第 
一部分^个，第二部分 r 2 个，…… ，第 k 部分 q 个，则不同的分法有 


n\ 

r i ! r i \ …〜！ 


(1.3.3) 


种，上式中的数称为多项系数，因为它是(义+七+…+义广展开式中 
« 2 …岭的系数，当 k = 2 时，即为二项系数. 

(3) 若 n 个元素中有\个带足标“1” ， n 2 个带足标“2”，……， 
〜个 带足标 “ A ;” ，且 n ,+/ i 2 + •••+〜= n , 从这 n 个元素中取岀 r 个，使 
得带有足标的元素有^•个灸），而 ri + r 2 f + r A = r ，这时 
不同取法的总数为 



n 2 


r 2 



(1.3.4) 


(4) 从 n 个不同的元素中有重复地取 r 个，不计顺序，则不同 


的取法有 
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1 


种，这个数称为有重复组合数. 

4. 关于二项系数的一些 公式： 

在二项系数的定义式中，若约定0! =1,则对一切 

成立 



此外，对正整数 n 及 I 若 bn , 则 



下列展开式在关于二项系数的讨论中很有用 


令％= 1得到 


(i+%r 


10 



利用幂级数乘法又可以证明，对一切正整数《，6,成立 



(1.3.5) 


(1.3.6) 


把排列公式推广到 r 是正整数而 n 是任意实数％的场合，有 
时是需要的，这时记 

<=%( -1 ) ( a ;-2) …（无- r +1 ) 

同样定义 
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Q _^ r x _x(x-l) (x-2) … （ x~r+\ ) 

7\ 

约定 Q =h 

不难验算 ： 

r : 卜叫， 1 ) (i . 3 . 7 ) 

这时，对任意实数 a , 有牛顿二项式 

(㈣ 。 = 1(:卜 

当 a 为正整数 n 时，它化为上述展开式. 

三、概率直接计算的例子 

[例 1] 一部四册的文集按任意次序放到书架上去，问各册 
自右向左或自左向右恰成1，2,3,4的顺序的概率是多少？ 

[解]若以分别表示自左向右排列的书的册号，则 
上述文集放置的方式可与向量 U , 6, cj ) 建立一一对应，因为 a , 
6, c , d 取值于1,2,3,4,因此这种向量的总数相当于4个元素的全 
排列数4! =24,由于文集按“任意的”次序放到书架上去，因此这 
24种排列中出现任意一种的可能性都相同，这是古典概型概率, 
其有利场合有2种，即自左向右或自右向左成1,2,3,4顺序，因此 

所求概率为壺4 

[例 2] 在幸运37选7福利彩票中，每期从1,2,…，37中开 
出7个基本号码和一个特殊号码，彩民们在购买每一张彩票时都 
预先选定7个号码.规定7个基本号码全部选中者获一等奖，选中 
6个基本号码及特殊号码者获二等奖.试求购买一张彩票中一等 
奖的概率仏及中二等奖的概率 P 2 . 

[解]把从37个数中取7个的各种取法作为样本点全体， 
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这是古典 概型； 总数虽大，为 1 7 J = 10295472,但还是有 限的； 由于 
摇奖时各数地位的对称性，因此这些样本点的出现是等可能的. 
一等奖的有利场合数目为=1，故 

Pl= |3^ =9 , 713x10 8 

即中一等奖的概率约为一千万分之一. 

二等奖的有利场合数目为=7,故 

p 2 =~^ — = 7x Pi = 6 * 8xicr 7 

( 7 ) 

[例3 ] 甲有 n +1 个硬币，乙有 n 个硬币，双方投掷之后进行 
比较，求甲掷出的正面数比乙掷出的正面数多的概率 • 

[解]这个问题初看非经繁复计算难求答案,但是若充分利 
用它特有的对称性并选择适当的样本空间，则能迅速求解. 

若以4记“甲的正面数>乙的正面数”，则3表示“甲的正面 
数 < 乙的正面数”，但是考虑到甲只比乙多一个硬币这一特殊情 
况，则3又表示“甲的反面数>乙的反面数”.再由硬币的对称性, 
显然 p ( w = pa ). 因此我们如果构造只有两个样本点的样本空 

间 IH ，便可轻而易举地写出答案 P ( A ) = y . 

[例 4] (投球人格）设有 n 个球，每个球都能以同样的概率 

+落到/ V 个格子（#多〃）的每一个格子中， 试求： 

(1) 某指定的 n 个格子中各有一个球的 概率； 

(2) 任何〃个格子中各有一个球的概率. 

[解]这是一个古典概型问题，由于每个球可落人 7 V 个格子 
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中的任一个，所以 / I 个球在 yv 个格子中的分配相当于从 yv 个元素 
中选取〃个进行有重复的排列，故共有 AT 种可能分配. 

在第一个问题中，有利场合相当于/ I 个球在那指定的 n 个格 
子中全排列，总数为〃！，因而所求概率为 


在第二个问题中， n 个格子可以任意，即可以从 7 V 个格子中任 
意选出 n 个来，这种选法共有种，对于每种选定的 n 个格子, 
有利场合正如第一个问题一样为 n ! ,故所求概率为 



N n N n ( N - n )\ 


这个例子是古典概型中一个很典型的问题，不少实际问题都 
可以归结为它. 

例如，若把球解释为粒子，把格子解释为相空间中的小区域, 
则这个问题便相应于统计物理学中的麦克斯韦-玻尔兹曼 （ Max - 
well-Boltzmann ) 统计. 

这也联系着概率论历史上有名的生日问 题：求 参加某次集会 
的 n 个人中至少有两个人生日相同的概率/ V 若把 n 个人看作上 
面问题中的 n 个球，而把一年的365天作为格子，则 7 V = 365, 这时 
所求的概率就是 1- P 2 ,W 

p n = 1 -365 x 364 x *** x ( 366- n ) /365 n 


下表给出若干 n 与的 数值: 


n 

5 

10 

20 

23 

30 

40 

60 

Pn 

0. 027 

0. 117 

0.411 

0. 507 

0. 706 

0. 891 

0. 994 


当 n = 23 时，同生日的概率就超过+ ;当 n = 40 时，该概率几 
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达 九成; 进一步当 n = 60 时，几乎可以肯定必有二人同生日. 

总之，投球问题中球相遇的概率比预料的大得多，这种意外在 
研究随机现象中时常遇见，也算是随机现象的特性之一吧！ 

四、抽签与顺序无关 

抽签是人为地引进随机性的一个最简单的例子，不单在体育 
比赛中广泛采用，而且在日常生活中也时常可见.关于抽签所体现 
的公平性，即结果虽然不同但机会却是均等的这种概念，只有通过 
概率论才能清楚阐明. 

进一步可以说，抽签是随机化方法的一种特例，随机化方法在 
抽样调查、试验设计和决策中都有广泛应用，是人类可以主动利用 
随机性的一个例证. 

下面的摸球问题值得读者仔细推敲. 

[例 5] 口袋中有 a 只黑球，6只白球，它们除颜色不同外， 
其他方面没有差别，现在把球随机地一只只摸出来，求第&次摸出 
的一只球是黑球的概率 

[第一种解法]把《只黑球及6只白球都看作是不同的（例 
如设想把它们进行编号），若把摸出的球依次放在排列成一直线 
的个位置上，则可能的排列法相当于把 a +6 个元素进行全排 
列，总数为 （ a +6)!， 把它们作为样本点全体.有利场合数为 
6-1) !，这是因为第^次摸得黑球有 a 种取法，而另外 U +6-1) 次 
摸球相当于只球进行全排列，有 1)! 种构成法，故 
所求概率为 

p __ ax ( a +6 -l ) ! _ a 
k ( a +6)! a +6 

这个结果与 A 无关！ 

细想一下,就会发觉这个结果与我们平常的生活经验是一致 
的.例如在体育比赛中进行抽签，对各队机会均等，与抽签的先后 
次序无关. 
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[第二种解法]把 a 只黑球看作是没有区别的，把6只白球 
也看作是没有区别的.仍把摸出的球依次放在排列成一直线的 a + 
b 个位置上，因若把 a 只黑球的位置固定下来则其他位置必然是 

放白球，而黑球的位置可以有种放法，以这种放法作为样本 

点.这时有利场合数为丨，这是由于第&次摸得黑球，这个 
位置必须放黑球，剩下的黑球可以在 a +6 -l 个位置上任取 ( Z -1 个 
位置，因此共有种放法.故所求概率为 

/ a+b-l\ 

a 

a+b 

两种不同的解法答案相同！ 

注意考察一下两种解法的不同，就会发现主要在于选取的样 
本空间不同.在前一种解法中把球看作是“有个性的”，而在后一 
种解法中则对同色球不加区别，因此在第一种解法中要顾及各黑 
球间及各白球间的顺序而用排列，第二种解法则不注意顺序而用 
组合，但最后还是得出了相同的答案. 

这种情况的产生并不奇怪，这说明对于同一随机现象，可以用 
不同的模型来描述，只要方法正确，结论总是一致的.在这个例子 
中，第二种解法中的每一个样本点是由第一种解法中的 a ! *6! 个 
样本点合并而成的. 

这个例子还告诉我们，在计算样本点总数及有利场合数时，必 
须对同一个确定的样本空间考虑，因此其中一个考虑顺序，另一个 
也必须考虑顺序，否则结果一定不正确. 

既然同一个随机现象可用不同的样本空间来描述，因此对同 
一个概率也常常有多种不同的求法，我们应逐步训练自己能采用 
最简便的方法解题，为此熟悉同一问题的多种不同解法是重要的. 
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例如，对例 5 就存在着多种不同的解法，上面提供的只是比较 
自然的两种.注意到在这两种解法中，我们对不同的&用的是同一 
个样本空间，也就是说，我们构造了一个可以描述 a +6 次摸球的 
样本空间，并利用它一举解决了“第次摸得黑球” 
这一概率的计算.假如允许对不同的 A 用不同的样本空间，则我们 
完全可以构造一个只包含前 A 次试验，甚至只包含第&次试验的 
样本空间，这时也能求得有关概率.特别是选用最后一种样本空间 
并利用对称性马上可以看出正确答案，不过这种做法对初学者或 
许不那么容易理解. 

五、二项分布与超几何分布 


产品抽样检查有两类，即有放回抽样与不放回抽样.在有放回 
抽样中，被抽出的产品检验后仍放回产品中，再抽第二次，因此这 
件产品以后仍然可能再次被抽到.更常用的是第二类方法，即不放 
回的抽样方法，这时被抽到的产品不再放回，因而以后不会再被抽 
到.与此相应地，我们的摸球模型也假定为有放回与不放回摸球两 
类，这两个情形得到的结果是不同的. 

下面是古典概型概率计算中的一个典型问题，它有着多方面 
应用，特别在产品检验方面起很大作用. 

[例 6] 如果某批产品中有 a 件次品6件合格品，我们釆用 
有放回及不放回抽样方式从中抽〃件产品，问正好有纟件是次品 
的概率各是多少？ 

所求的概率显然与抽样方式有关，下面我们分别来讨论. 

[有放回抽样场合]把 a +6 件产品进行编号，有放回抽 n 次, 
把可能的重复排列全体作为样本点，总数为 U + 6)' 其中有利场 


合（即次品正好出现&次）的数目是 



故所求概率为 
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l k b n 


n\ 


a 


(a+6) rt 


a+bl \ a-t-b 


(1.3.8) 


\是 二项式 n 展开式的一般项，上述概率称为二项 

分布（分布一词的意义将在第三章阐明）.关于二项分布更一般的 
讨论在以后各章陆续进行. 

[不放回抽样场合]从 a +6 件产品中取出； i 件产品的可能组 


合全体作为样本点，总 数为广 ，有利场合数为，故所 


求概率为 


= 



(1.3.9) 


这个概率称为超几何分布. 

从直观上看，当产品总数很大而抽样数不大时，采用有放回抽 
样与采用不放回抽样，差别应该不大. 

事实上，因为 



_/^\ g k b n ~ k • 7 

= lfc) A： +b 

(a+b) n 

而 当&比 a 小得多,比 6 小得 多时: 
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A：~ k 

.■ — • . . 



4 


(a+6) 

因此 


h k^ h k 

在实际工作中，抽样一般都采用不放回方式，因此计算次品数 
为 k 的概率时应该用超几何分布，但 （1. 3. 9) 的数值计算较繁复. 
若产品数甚大而抽样数不太大，则可利用上述性质，计算二项分布 
作为近似值，这时有许多专门表格可查，这样可以大大节省计算工 
作量. 

利用上例结果，马上可以计算下列概 率：若 一批产品共有斤 
件，其中有次品件，今抽取〃件，则其中恰有肌件次品的 
概率是 


P m 



O^n-m^N-M 


(1.3.10) 


这是超几何分布的另一种常见形式. 

学到这里，细心的读者可能会发觉这样一个矛盾，在我们前面 
讨论中都假定产品中的次品数已知，然后根据它来计算种种概率， 
而在实际问题中，情况恰恰相反，次品数是未知的，并且正是我们 
希望通过抽样检查来确定的. 

这个矛盾可通过下面办法来解决. 


不难理解，抽出来的样本的质量情况在某种程度上反映了整 


批产品的质量情况，例如，如果整批产品中次品很多，则抽查的样 
本中含有次品的可能性就相 当大; 反之，若产品中极少次品，则从 
中抽查一两件产品而得到次品的可能性就很小，因而样本中所含 
次品数的多少就为我们估计整批产品中的次品数提供了某种信 
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息.例如为了确定某批产品的次品率，通常采用的方法是从这批产 
品中抽若干件产品作为样本来检验，并用样本的次品率来估计整 
批产品的次品率.关于这个课题的研究，构成了数理统计的重要 
内容. 

由于抽样带有随机性，因而不同的抽样可能得到不同的结果， 
所以我们有必要对各种结果岀现的可能性大小进行讨论，这为我 
们根据样本情况推断整批产品情况提供了理论依据，这种研究是 
概率论的任务.从这里也看岀，概率论与数理统计有着很密切的 
联系. 

[例 7] 从某鱼池中捕得1 200条鱼，做了红色的记号之后 
再放回池中，经过适当的时间后，再从池中捕1 000条鱼，数出其 
中有红色记号的鱼的数目，共有100条，试估计鱼池中共有多少 
条鱼？ 

[解]设池中共有〃条鱼， n 未知，是我们要估计的•更一般 
地，设第一次捕得的鱼有\条（针对本例， ~ = 1 200)，第二次捕得 
r 条（针对本例， r=l 000)，而其中有记号的 有&条 （针对本例 J = 
100 ). 

现在，在第二次捕鱼中有 A 条有记号鱼的概率按超几何分布 
(1.3. 10) 给出： 


P k ( n ) = 



因为实际上在 r 条鱼中有丨条有记号，因此我们求 n 使得上式概 


率达到最大，并把这个数值作为池中鱼数的估计. 


由于 

p k ( n ) ( n - n l ) ( n - r ) n 2 - nn x - nr + n,r 

二 -- ■ = - 一 p 

p k ( n - l ) ( n - n x - r + k)n n 2 - nn l - nr-\-nk 


因此当 nk < nj 时,/ >>1 ，而当 nk > nj 时,/ ><1, 即 p A ( n ) 当-时是 
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^ 的增函数，而当时是 U 的减函数,所以当71等于 



时，达到最大值.这样我们把作为鱼池中鱼总数〃的估 

k 

计量. 

在这个例 子中： 


1 200 x 1 000 
100 


12 000 


这里解题的基本思路是把概率 (幻看 作未知参数〃的函 
数,称为似然函数 （likelihood function ) ，再通过求其最大值而得到 
^的估计，这是数理统计中著名的最大 似然估计法. 这个方法可以 
溯源到拉普拉斯及高斯. 


六、概率的基本性质 


古典概型中，若样本空间为/2= | 叫 ，叫， …，化丨，分别以 
打 (4) ,71(5 )U 石） 及记事件 UB 及 M 所包含 
的样本点数，则显然成立计数公式 

n(A\jB)= n(A) -\-n(B ) -n(AB) 

两边除以〃，即得概率的等式 

P(AUB)= P(A)-¥P(B)-P(AB) 

以后将会看到，这是概率论中普遍成立的一个等式. 

如果4与6不相容，即45= 0，立刻得到 

P(A+B)=P(A)+P(B) (1.3. 11) 

不难把这个结果推广到有限个事件的场合，即若\，4,…， 
夂是 m 个两两互不相容的事件，则 

P ( A + ' + …+<)=/>(々) + P (皂） —••+/>(<) (1.3.12) 
这个结论可借助 （〗.3. 11) 用归纳法证明. 
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(1.3.13) 


系 P(A)= 1 -尸 ⑷. 

[证]由于4+3 =仏 所以 

P(n)= P(A-^A)= P(A) +P(A)= 1 

因此 

P(A)= 1 - 尸⑷ 

对立事件概率等式 （ 1 .3. 13 ) 很简单，意义也很明确，但相当 
有用，它为计算某些事件的概率提供了很大方便. 

[例 8] (德 • 梅尔问题）一颗骰子投 4 次至少得到一个六点 
与两颗骰子投 24 次至少得到一个双六，这两件事中哪一件有更多 
的机会遇到？ 

[解]以4表示一颗骰子投4次至少得到一个六点这一事 
件，为求 PM ), 在这种场合最方便的方法是利用 （1.3. 13) 式，先 
求/ >(3), 这时3表示投一颗骰子4次都没有出现六点，因此不难 
得出 

从而得到 

4 - 4 

Pl =P(A)= 1-(-^-) =0.517 7 

若以 B 表示两颗骰子投 24 次至少得到一个双六这一事件，则 
用同样的方法可以求得 

/ 35\ 24 

P 2 =P(B)= 1-( 蜀 =0.491 4 

这样一籴，我们知道前者的机会大于而后者的机会小于 +• 

这个问题在概率论发展史上颇有名气，因为它是德 • 梅尔向 
帕斯卡 （ Pascal , 1623—1662) 提出的问题之一.正是这些问题导致 
了帕斯卡的研究和他与费马 （ Fermat,1601—1665) 的著名通信•前 
已指出，他们的研究标志着概率论的诞生. 

[例 9] 一口袋 中装有 7 V -1 只黑球及1只白球，每次从袋中 
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随机地摸出一球，并换入一只黑球，这样继续下去，问第 A 次摸球 
时摸到黑球的概率是多少？ 

[解]若以4表示第纟次摸到黑球这一事件，则3表示第 A 
次摸到白球.现在计算 p (3). 

因为袋中只有一只白球，而每次摸出球总是换入黑球，故为了 
在第 &次摸 到白球，则前面的 A -1 次一定不能摸到白球.因此3等 
价于下列事件 :在前 A -1 次摸球时都摸出黑球 而第& 次摸出白球， 
这一事件的概率为 

jjv 二 1 亡丄广•丄 

N k \ N ) N 

这样 

/>⑷=1-/>(3)=1-(1 一 +) '去 

公式 （1.3.13) 的应用使这个题目很快获得解决，假如直接计 
算/>(々则困难得多.从公式 （1.3. 13) 中容易看出，只要 P (4) 或 
玖3)中的任何一个知道了，则可以求得另一个.在不同问题中，有 
的求 PM ) 容易，求/ >(3) 困难； 有的正好相反.利用式 （1.3. 13), 
我们就可以先求容易的一个，再去求另一个. 

从古典概型的概率研究中，我们发现概率有下面三个基本 
性质： 

⑴对于任何事件 P ( A )^0； 

U) p(n)=i ； 

( iii ) 若岑，4,…，夂两两互不相容，则 

/ >(^以 2+ … +<) = /> (岑） +P( 4)+ … (七） 

第一个性质称为概率的非负性，第二个性质称为概率的规范 
性，第三个性质称为概率的 （ 有限）可加性. 
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§4 .几何概率 

一、 例子与计算公式 

在古典概型中利用等可能性的概念，成功地计算了某一类问 
题的 概率; 不过，古典概型要求可能场合的总数必须有限，因此历 
史上有不少人企图把这种做法推广到有无限多结果而又有某种等 
可能性的场合.这类问题一般可以通过几何方法来求解. 

先从几个简单的例子幵始. 

[例 1] 某人午觉醒来，发觉表停了，他打幵收音机，想听电 
台整点报时,求他等待的时间短于10分钟的概率. 

[例 2] 如果在一个 5 xl 0 4 km 2 的海域里有表面积达40 km 2 
的大陆架贮藏着石油，假如在这海域里随意选定一点钻探，问钻到 
石油的概率是多少？ 

[例 3] 在400 mL 自来水中有一个大肠杆菌，今从中随机取 
出2 mL 水样放到显微镜下观察，求发现大肠杆菌的概率. 

一种相当自然的答案是认为例1所求的概率等于例2中 

钻到石油的概率等于而例3所求的概率等于在求这 

些概率时，我们事实上是利用了几何的方法，并假定了某种等可能 
性. 

在例1中，因为电台每小时报时一次，我们自然认为这个人打 
开收音机时处于两次报时之间，例如 （13 : 00,14 : 00), 而且取各 
点的可能性一样，要遇到等待时间短于10分钟，只有当他打幵收 
音机的时间正好处于13 : 50至14 : 00之间才有可能，相应的概 

率是誌4 
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在例 2 中，由于选点的随机性，可以认为该海域中各点被选中 
的可能性是一样的，因而所求概率自然认为等于贮油海域的面积 

与整个海域面积之比，即等于 

同样地，例3中由于取水样的随机性，所求概率等于水样的体 

积与总体积之比; 

400 


总之,在这类问题中，试验的可能结果是某区域中的一个 
点.这个区域可以是一维的，也可以是二维的，还可以是三维的，甚 
至可以是〃维的，这时不管是可能结果全体或是我们所感兴趣的 
结果都是无限的.因而等可能性是通过下列方式来赋予意义 的：落 
在某区域 g 的概率与区域 g 的测度（长度、面积、体积等等）成正 
比并且与其位置及形状无关. 


因此，若以'记“在区域中随机地取一点，而该点落在区域 
g 中”这一事件，则其概率定义为 


P(A 的测度 

V 的测度 


(1.4.1) 


据此定义，则上述诸例之解是明显的.下面再举一个例子. 

[例 4] (会面问题）两人相约7点到8点在某地会面，先到 
者等候另一人20分钟，过时就可离 
去,试求这两人能会面的概率. 

[解]以分别表示两人到 
达时刻，则会面的充要条件为 

\x-y\ ^20 

这是一个几何概率问题，可能的结果 
全体是边长为60的正方形里的点， 

能会面的点的区域用阴影标岀（图 

1.4.1) •所求概率为 图1. 4 _1会面问题 
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60 2 -40 2 5 

P=_ ^~ = 9 


二、蒲丰问题 


1777年法国科学家蒲丰 （ Buffon ，1701—1788) 提岀了下列著 
名问题，这是几何概率的一个早期例子. 

[投针问题]平面上画着一些平行线，它们之间的距离都等 
于 a , 向此平面任投一长度为 Z ( Z < a ) 的针，试求此针与任一平行线 
相交的概率. * 

[解]以％表示针的中点到最近的一条平行线的距离^表 
示针与平行线的交角.针与平行线的位置关系见图 1. 4. 2. 




图 1 . 4.2 蒲丰问题 

显然有彡史彡贯，以 G 表示边长为 f 及 1 T 的长方 


形.为使针与平行线相交,必须％〜满足这个关系式的区 
域记为 g , 在图 1.4.2 中用阴影表出，所求的概率为 


二 g 的面积 
的面积 


士 J Zsin <pd(p 

I 

T air 



(1.4.2) 


由于最后的答案与 or 有关，因此蒲丰设想利用它来计算 or 的 
数值,其方法是投针/ V 次，计算针与线相交的次数〃，再以频率值 
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^ 作为概率 P 之值代人 （ 1. 4. 2) ，求得 


粗看这是一个笨办法，耗力费时,而且很难达到当时用数学方 
法已算得小数点后一百多位精确数值这样一个精度.但仔细考量 
则会发现这是一个了不起的创意，它提出了一个全新的计算方案: 
建立一个概率模型，它与某些我们感兴趣的量——这里是常数 
it ——有关，然后设计适当的随机试验，并通过这个试验的结果来 
确定这些量. 


据说蒲丰曾亲自做过试验，可惜结果没有留传下来. 
历代欣赏蒲丰提议的大有人在，有些还真正做了试验 
下表①给出了这些试验的有关资料（把《折算为1 ). 


实验者 

年份 

针长 ! 

投掷次数 

相交次数 

it 的实验值 

Wolf 

1850 

0.8 

5 000 

2 532 

3. 159 6 

Smith 

1855 

0.6 

3 204 

1 218.5 

3. 155 4 

De Morgan,C. 

1860 

1.0 

600 

382.5 

3.137 

Fox 

1884 

0.75 

1 030 

489 

3. 159 5 

Lazzerini 

1901 

0.83 

3 408 

. 

1 808 

3. 141 592 9 

Reina 

1925 

0. 541 9 

2 520 

859 

3. 179 5 


现在，随着计算机科学的发展，已按照上述思路建立起一类新 
的方法，称为随机模拟法，蒲丰投针实开其先河. 

三、积分计算的蒙特卡罗法 

二战后期 ，一 批从事原子弹研究的美国科学家，与第一架数字 


① 弓 I 自 Gridgeman,N T. Geometric probability and the number it. Scripta Mathemati- 
ca,25(1960) ,183-195. 
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电子计算机的诞生几乎同时提岀了一系列随机模拟的计算方案. 
一大类是关于粒子运动的模拟，另一大类则是以积分计算为代表 
的新计算方法.他们还以赌城的名字命名这类方法，这就是著名的 
蒙特卡罗 （Mome Carfo ) 方法.下面介绍定积分计算的蒙特卡罗法. 
设在 [ a ,6] 上，函数0在要求计算 

/= ( fix ) Ax (1.4.4) 

J a 

在图 1.4.3 中，积分 J 等于阴影所标的曲边梯形的面积.它被以 J 
为边，高为 M 的矩形 G 所包围，假 
如我们在 G 中随机地取点，则该点 
落在阴影部分的概率为 


(b - a) M 

仿照蒲丰投针问题的做法，投 
点^次，计算落人阴影部分的次数 

〜并以 频率值作为概率 P 之值代 

人上式，求得 

nM( b-a) 

=~ N ~~ 

这个做法不难推广到多重积分与任意边界的场合. 

应当说明，当年设计的蒙特卡罗新计算方法大都因效率不及 
传统方法的改良方案而遭淘汰，但是积分计算却因两大优点而生 
存 :一是 其误差与维数 无关; 二是适合于复杂的被积函数或边界. 
因此高维复杂积分的计算中，蒙特卡罗法仍有一席之地，而动态蒙 
特卡罗方法则方兴未艾.蒙特卡罗方法的发展也大大推动了随机 
数的研究. 


n 



图 1.4.3 积分计算 


(1.4.5) 


四、贝特朗 （ Bertrand ) 奇论 

几何概率在现代概率概念的发展中曾经起过重大作用 . 19世 
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纪时，不少人相信，只要找到适当的等可能性描述，就可以给概率 
问题以唯一的解答，然而有人却构造出这样的例子,它包含着几种 
似乎都同样有理但却互相矛盾的答案，下面就是一个著名的例子. 
[贝特朗奇论]在半径为1的圆内随机地取一条弦，问其长 

超过该圆内接等边三角形的边长#的概率等于多少？ 

这是一个几何概率问题，但是基于对术语“随机地”的含义的 
不同解释，这个问题却存在多种不同答案，下面是其中的三种. 

[解法一]任何弦交圆周两点，不失一般性，先固定其中一 
点于圆周上，以此点为顶点作一等边三角形，显然只有落入此三角 
形内的弦才满足要求，这种弦的另一端跑过的弧长为整个圆周的 

+ ,故所求概率等于 +( 见图 1.4.4( a )). 



⑻ ( b ) ( c ) 

图 1.4.4 贝特朗奇论 

[解法二]弦长只跟它与圆心的距离有关，而与方向无关, 
因此可以假定它垂直于某一直径.当且仅当它与圆心的距离小于 

f 时，其长才大于#，因此所求概率为见图 1.4.4( b )). 

[解法三]弦被其中点唯一确定，当且仅当其中点属于半径 

为+ 的同心圆内时，弦长大于斤，此小圆面积为大圆面积的+，故 
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所求概率等于 +( 见图 1. 4. 4( c )). 

同一问题有三种不同的答案，细究其原因，发现是在取弦时采 
用不同的等可能性假定.在第一种解法中，假定端点在圆周上均勻 
分布，在第二种解法中则假定弦的中点在直径上均勻分布，而在第 
三种解法中又假定弦的中点在圆内均匀分布.这三种答案是针对 
三种不同的随机试验，对于各自的随机试验而言，它们都是正 
确的. 

因此在使用术语“随机地”、“等可能”、“均勻分布”等时，应 
明确指明其 含义; 这又因试验而异. 

1899年贝特朗在巴黎出版《概率论》，书中对几何概率提出了 
批评，并以这一生动的实例引起大家的注意.这种善意的批评，推 
动了概率论的发展. 

由于釆用等可能性来定义概率有这种困难，因此后来就选择 
另外的途径，即在定义概率这一基本概念时只指明概率应具有的 
基本性质,而把具体概率的给定放在一边.这样做的好处是能针对 
不同的随机试验给定适当的概率. 

与概率的频率解释及古典概型一样，几何概率的研究对于我 
们了解应要求概率具有哪些基本性质是很有帮助的. 

五、几何概率基本性质 


几何概率的定义及计算与几何图形的测度密切相关，因此所 
考虑的事件应是某种可定义测度的集合.这类集合的并、交也还应 
该是事件，甚至对它们的可列次并、交也应有这个要求.例如考察 

在 （0,1) 中投一个点的随机试验，若以4记该点落入中这 
个事件，而以人记该点落入中这一事件，1,2,…则 

QO 

A = 

/I = 1 
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如果假定所投的点落入某区间的概率等于该区间的长度，则 

P ( A ) =如而/ > (人 ）= _ r , 这时有 

00 

P ( A )= X P ( 纪） 

n = I 

这里我们遇到了事件及概率的可列运算. 

综上所述，几何概率应具有如下 性质： 

( i ) 对任何事件 P ( A ) ^0； 

( ii ) P ⑽=1； 

( iii ) 若枣， …两两互不相容，则 

n i A n ) = XP ( A n ) (1.4.6) 

re= 1 n = 1 

前两个性质即非负性及规范性与古典型概率相同 ，（1.4. 6) 则要 
求对可列个两两互不相容事件成立，这性质称为 可列可加性. 

§5.概率空间 

一、走向概率论公理化结构 

到本世纪初，概率论的各个领域已经得到了大量的成果，而且 
人们对概率论在其他基础学科和工程技术上的应用也产生了越来 
越大的兴趣.但是直到那时为止，关于概率论的一些基本概念—— 
例如事件、概率等——却没有明确的定义.这是一个很大的矛盾， 
这个矛盾不仅可能导致贝特朗奇论那样的怪现象产生，而且也使 
许多人对概率的客观含义，甚至概率论结论的可应用性都产生了 
怀疑.因此可以说，到那时为止，概率论作为一个数学分支来说，还 
缺乏严格的理论基础，这就大大妨碍了它的进一步发展. 

在概率论发展早期，所研究@随机现象比较简单，大部分可以 
归入古典概型.对这种模型，利^对称性概率的计算可以通过某种 
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等可能性的假设进行，其结果也有相当明确的解释.这种成功使得 
人们试图通过给定某种等可能性来定义概率.于是，由拉普拉斯提 
出的概率的古典定义在整个19世纪被人们广泛接受.但是，这种 
定义的局限性很快也暴露了出来，它既要求试验的可能结果总数 
有限，又要求某种等可能性，所以它的适用范围极其有限.当把这 
个结果推广到有无限多种可能结果的场合，例如几何概率时，不但 
适用范围依然有限，而且出现了新问题.况且，用等可能性来定义 
概率还有循环定义之嫌.总之，对一般的随机现象明确地定义概率 
及其他基本概念，在那时成了一个突出的问愈. 

解决这个问题的时机也在不断成熟.首先是通过对概率论的 
两个最基本概念——事件与概率的长期研究，发觉事件的运算与 
集合的运算完全相似，概率与测度有相同性质，这个事实随着当时 
在实变函数论中关于勒贝格 （ Lebesgue , 1875-1941) 测度和积分 
的研究以及一般抽象测度和积分理论的发展而日益明确起来. 

另外，19世纪末以来，数学的各个分支广泛流行着一股公理 
化潮流，这个流派主张把最基本的假定公理化，其他结论则由它们 
经过演绎导出. 

在这种背景下，1933年，前苏联数学家科尔莫戈罗夫 
(Ko;iMoropoB A H ,1903 —1987 ) 提出了概率论公理化结构，这个 
结构综合了前人成果，明确定义了基本概念,使概率论成为严谨的 
数学分支,对近几十年来概率论的迅速发展起了积极作用.科尔莫 
戈罗夫的这个理论已被普遍接受，本书的各部分就是在这个结构 
中展开的. 


二、事件域 


在公理化结构中，事件不是最基本的概念，它通过更基本的概 
念——样本点来定义. 样本点相 应于随机试验的结果，我们已在前 
三节中进行过不少描述.在古典概型中，它们是可能结果全体，被 
用来定义一般的事件.在几何概率中，它们相应于区域中的点, 
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也被用来定义一般的事件.以后，我们把样本点 W 看作抽象的点， 
它们的全体构成样本空间 Z 2. 

正如§ 2中所做的那样，我们把事件4定义为的一个子集， 
它包含若干样本点，事件4发生当且仅当4所包含的样本点中有 
一个发生. 

一般并不把的一切子集都作为事件，因为这将对给定概率 
带来困难，譬如在几何概率中，若把不可测集也作为事件，将带来 
不可克服的困难. 

另一方面，又必须把问题中感兴趣的事件都包括进来.例如若 
4是事件，则应要求3也是 事件; 若4与 S 是事件，则 AUfi 及 
也应是事件.当样本空间由无限多个点构成时——在几何概率 
中就是如此——显然还得考虑可列个事件的并与交.此外，把 
及0作为事件有很大方便. 

总之，我们若把事件的全体记为多;它是由的一些子集构成 
的集类.而且为了使讨论便于进行,还得对，加上某些 限制： 

( i ) 

( ii ) 若则 

OD 

( iii ) 若人 e 舄 n = l ,2, …， 

nss l 

一般地，称空间上满足上述三个要求的集类为域，亦称 cr 代 

数 • 

若，为0■域，则由 （ i ) 及 （ ii ) 可得 

0 € ^ 

此外，若人71=1,2,…，贝！1 


n < = u 1 e ， 

n = I n = 1 

k 

LM„ = A u 4 U … U 火 U 0 U 0 … e ， 

n = l 
k 

C\ = A i n n …门 n n /?••• e ， 
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据此定义， ^ 域对逆、并、交、差的可列次运算封闭，并且包含 
了 /2及 0. 

定义 1.5.1 若，是由样本空间的一些子集构成的一个 cr 
域，则称它为 事件域 （event field ) 中的元素称为 事件， 称为必 
然事件， 0称为 不可能事件. 

值得指出，按照这种定义，样本点并不一定是事件. 

下面我们来举一些事件域的例子. 

[例 1] ^=1 0,/2)，不难 验证， 是一个^域，这时只有必然 

事件与不可能事件0是事件. 

[例 2]. 罗 H 0 , A , A ,/2). 这时，也是一个 a 域,0 
是事件. 

[例 3] 12=丨叫，…，6>„丨由/}的一切子集构成，这时它包 

含不可能事件个单点集，个双点集，•••，(:」个 ^-1 
点集，还有必然事件/2,因此计有 



个元素.不难验证，是一个^域. 

[例 4] 对于一般的/2,若•^由的一切子集构成，可以验证 
，7是一个 o ■域. 

从上面几个例子中看到，事件域可以很简单，也可以选得十分 
复杂，这就需要我们根据问题的不同要求来选择适当的事件域. 

表面看，当确定后，把事件域多选得越大，能处理的事件越 
多，就越方便.但是概率论最关心的毕竟是概率，过大的事件域对 
概率的给定带来困难，并不可取.不过，如果定义概率没有困难，那 
么，事件域当然可以尽量选大.因此对有限样本空间和离散样本空 
间，以后我们将看到，通常都取的一切子集作为事件域. 

对一个试验，当给定后，总有些子集必须作为事件处理，但 
它们未必能满足 cr 域的要求，该怎么办？ 
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下面证明 ： 若给定/2的一个非空集类％必存在唯一的一个 
上的 cr 域 m (^ ，具有如下两个性质：（1)包含另 （2) 若有其他 
tr 域包含 ％ 则必包含 m (约 .这个 m (约称为包含 泛 的最小 cr 
域，亦称由$产生的^域. 

先证明必存在包含災的^域，显然由/2的一切子集构成的集 
类包含了武由例4知此集类是一个 C 7 ■域，因此至少存在/2上的 
一个 a ■域 m ， 有 m 3 货 

现在只要取/2上一切包含災的 cr 域之交作为 m (约，则它是 
具有上述两个性质的 CT 域.这点作为习题留给读者自行验证. 

因此，从必须作为事件处理的子集出发，通过添加其他子集， 
必能得到/2上的^域.不过，上述最小 (7 域因便于给定概率而受 
重视. 

按照这种观点，例1是只把不可能事件0及必然事件/2看作 
事件的平凡事件域，而例2是由事件4产生的事件域. 

当有限或可列，如果要求每一个样本点都是事件，则包含 
它的最小^域就是的一切子集（如例 3). 因此在这两种场合， 
事件域的选取实际上没有困难. 

真正要关心的是样本空间为一维或〃维欧几里得 （ Euclid ) 空 
间的场合.这里的许多结果是由博雷尔 （ Borel , 1871—1956) 建 
立的. 

至于如何在函数空间上定义事件域则超出本书的讨论范围. 

下面介绍两个非常有用的^域. 

[一维博雷尔点集]以后我们将以 R 1 记数直线或实数全体， 
并称由一切形为 [ a , 幻的有界左闭右开区间构成的集类所产生的 
^域为一维 博雷尔 C 7 域， 记之为义,，称 A 1 , 中的集为一维 博雷尔 
点集. 

若 ty 为任意实数，由于 

ui = n \x f x + —) 

n=l L n / 
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( x 9 y )= [ x , y )-\ x \ 

[ x t y ] =[ x 9 y ) + \ y \ 

( x f y ] =[ x f y ) + \ y \ -\ x \ 

因此方 , 中包含一切开区间，闭区间，单个实数，可列个实数，以及 
由它们经可列次逆、并、交运算而得出的集合.这是相当大的一个 
集类，足够把实际问题中感兴趣的点集都包括在内. 

显然,若不从左闭右开区间 U ,6) 出发，而从 （ a ,6] 或 u ,6), 
或 6], 甚至 （-00 ，幻出发，都将产生同一个 C 7 域. 

[ d 维博雷尔点集]以 R n 记 n 维欧几里得空间，可以类似地 
定义 n 维博雷尔点集，它们是由一切 n 维矩形产生的 n 维博雷尔 
a 域見中的集合，也可以把 R n 中我们感兴趣的点集都包括在内. 

三、概率 

在公理化结构中，概率是针对事件定义的，即对应于事件域^ 
中的每一个元素4有一个实数 P(>1) 与之对应 ，一 般把这种从集 
合到实数的映射称为集合函数.因此，概率是定义在事件域多上 
的一个集合函数.此外，在公理化结构中只规定概率应满足的性 
质,而不具体给出它的计算公式或计算方法. 

概率应有什么性质呢？ 

因为概率通过频率稳定性与随机试验相联系，因此我们自然 
想到概率应有与频率类似的性质.关于频率的性质，我们已在§ 1 
中总结为非负性，规范性以及有限可加性. 

在古典概型中，概率是通过有利场合数与可能结果总数之比 
来定义的，它同样具有这三个性质. 

在几何概率中，情况也类似，但有一点不同，就是它要求对可 
列个不相容事件之和有可加性，即可列可加性. 

在一般场合，处理可列个事件之和是完全必要的，因此保留这 
种可列可加性要求看来是合理的. 

综上所述，我们如下定义概率. 


• 47 • 



定义 1.5.2 定义在事件域，上的一个集合函数 P 称为概 
率，如果它满足如 下三个 要求： 

( i ) P ( A ) ^ 0,对一切4 e % 

( ii ) P ( fl ) = l ； 

( iii ) 若岑 f = 1,2, …且两两互不相容，则 

P { 乞4)=乏 P ⑷ (1.5.1) 

i= 1 *' = 1 

性质⑴称为非负性，性质 （ ii) 称为规范性，性质 （ iii) 称为可列可 

加性或完全可加性. 

利用概率的基本性质 （ i ),( ii )，（ iii ) 可以推出概率的另外一 
些重要性质. 

性质1不可能事件的概率为0,即 P ( 0)=0. 

[证明]因为 

o = n + 0 + ••• 

所以 

P (/2) = P (/2)+ P (0)+- 


因此尸 （0)=0. 

性质 2概率具有有限可加性.即若岑 = 则 

P ( A , + 4 + … + A n )= P ( A l ) + 尸⑷ + …+ 尸 K ) 

(1.5.2) 

[证明]因为 

A , + A 2 + ••- + A n = Ay + A 2 + ••- + A n + 0 + 0 + ••- 
由可列可加性及性质1 

P ( A t + A 2 + … + A n )= P ( A 1 ) + 尸⑷ + … + P ( A n ) 

性质3 对任何事件 >4 有 

P ( A ) = 1 - P ( A ) (1.5.3) 

[证明]因 4 u 3=/2,4； i =0， 故 

1 = P ( D ) = P(A U A ) = P ( A ) + P ( A ) 


• 48 • 



性质 4 如果则 

P(A - B ) = P ( A ) - P ( B ) (1.5.4) 

[证明]因为4 +/!§,故 

P(A - B ) = P ( AB ) = P ( A ) - P ( AB ) 

特别当 4 5 时,得到式 （1.5. 4). 

推论 1 (单调性）如果>1〕 B , W \ P ( A ) ^ P ( B ). 

由此即知，对任意事件有再注意到概率的非负 
性，所以成立 

0 ^ P ( A ) ^ 1 (1.5.5) 

性质 5 P(A U B ) = P ( A ) + P { B ) - P { AB ). (1.5.6) 
[证明]因 A U 5=4 U (5 -而且4 n (B-AB) = 0, 
故尸 （4 U B )= P ( A ) ^ P ( B - AB),XABC 于是由性质 4 得到 

P(A U B) = P(A) + P ( B ) - P ( AB ) 

公式 （1.5. 6) 称为概率的加法公式，在古典概型场合,我们曾 
直接加以证明，如今则作为可加性的直接推论，说明在一般场合也 
成立.由它可得如下 推论： 

推论 2 (布 尔不等式） 

P(A U B ) ^ P ( A ) + P ( B ) (1.5.7) 

推论3 ( Bonferroni 不等式） 

P ( AB ) ^ P ( A ) + P ( B ) - 1 (1.5.8) 

利用归纳法不难把这两个不等式推广到〃个事件的场合. 
PU , UA 2 U - UA n ) ^ P ( A ,) + P ( A 2 ) + … + P ( A n ) 

P(A X A 2 -A n ) ^P(A { ) +P(A 2 ) +〜+/>«) - - 1) 

性质 6 (—般加法公式） 若伞 ,4 ,…为〃个事件，则 

PU X UA 2 U - UA n )= X 户⑷一 X 户 ( M -) 

i = 1，…， /i i < j 

ij = 1 , " ,n 

+ X p ( A iW 一 … + ( 一 1 广 1 PMA … 々） 

i <j < k 
= 1，•••，n 


(1.5.9) 
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公式 （1. 5. 9) 可以用数学归纳法证明，留给读者作为习题. 
当然，概率还有其他性质，不过上述列出的各条是最重要的. 
它们是以后讨论中经常要用到的基本结果，务必牢记. 

值得提醒的是概率的这些重要性质的推导实质上只用到非负 
性、规范性和有限可加性. 

[概率计算的公式法]利用上面推导的公式来作概率计算, 
常能使解题思路清晰，计算便捷. 

[例 5] (最大车牌号）某城有 7 V 辆卡车，车牌号从1到 iV , 
有一个外地人到该城去，把遇到的〃辆车子的牌号抄下（可能重 
复抄到某些车牌号），求抄到的最大号码正好为 A 的概率 （1 <左< 
7 V ). 

[解]可以看作古典概型问题，即设每辆卡车被遇到的机会 
相同.若以火记抄到的最大号码 为&这 一事件，又以 义记 抄到的 
最大号码不超过 A 这一事件，则明显有 A k = B k - B k _、， 而且 
B k D B k _ l 9 PJf 以由性质 4 知 P ( A k )= P ( B k ) - P (圮，而由直接 

计算可得 P ( B k )=^- nt 因此最后得到 


PU k ) = 


k n - (k - l) n 


这种方法曾在第二次世界大战中被盟军用来估计敌方的军火 
生产能力，从被击毁的战车上的出厂号码推测其生产批量，得到相 
当精确的有用情报. 

[例 6] (匹配问题）某人写好〃封信，又写好〃只信封, 
然后在黑暗中把每封信放入一只信封中，试求至少有一封信放对 
的概率. 

[解]若以次记第〖封信与信封符合，则所求事件为 A lm 2 
U … u <, 所以可以用一般加法公式，不难求得 
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PiAyAj) 


( n-2 )! 


n ! n ( n - l ) 


p (从人 ，…， 戶(从 •乂 )7 


因此 


P(A X U4U … U\) 

广)丄_广) -- 1 — 

\ 1 / n . \2/ n ( n - l ) 

--- + (_ i ) re - , J - 

:1 -—+- - + (- l ) n " 1 — 

2! 3! V ； n \ 


这个问题若直接计算有利场合数，无疑是十分复杂的. 

四、可列可加性与连续性 


下面我们对可列可加性作进一步讨论.从性质2知道，由可列 
可加性可以推出有限可加性，但是一般来讲，由有限可加性并不能 
推出可列可加性. 

事实上，若次 e i = l ，2, …且两两互不相容，则由概率的有 

限可加性只能推出 （1.5. 2) 式成立 ， BP 

P { 土岑)= SPK ) (1.5.10) 

i= 1 *= 1 

这个等式的左边对 任意〃 都不超过1 ,因此右边的正项级数收敛. 
这样应有 

limP ( =\ imf j P ( A i )= (1.5.11) 

n_+ ® i = i n-> * »' = i » = i 

与 （1.5. 1) 式比较一下就可以知道，为了具有可列可加性，还需要 
下式 成立： 

= p ( i » o . 5 . 12 ) 

i = 1 i = 1 
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或者写成更富有启发性的 等式： 

limP ( = P { Um j ^ A ,) (1.5.13) 

i = 1 °° i = 1 

即要允许把极限号移到概率号里面去，这就提出了一个新要求. 
现在就来考察这个新要求.若记 

= X 
1 

则 n = l ,2, …而且 S „ CS „ +1 ，即\是，中一个单调不减的 
集序列，这时可改写 （1.5. 13) 式成为 下式： 

limP (5„) = P ( limS „) (1.5. 14) 

fl—► oo fi— 

一般，对于，上的集合函数，若它对 ^ 中任何一个单调不减 
的集 序列丨 均成立 （1.5. 14) 式，则我们称它是下连续的.因此 
前面的推导表明，为保证概率的可列可加性成立，除要求它具有有 
限可加性外，还要求它是下连续的. 

下面的定理明确地阐明了这三个概念之间的关系. 

定理 1.5.1 若 P 是，上满足 P(/3)= 1 的非负集合函数，则 
它具有可列可加性的充要条件为 

( i ) 它是有限可 加的； 

( ii ) 它是下连续的. 

[证明]充分性只要重新考察前面的推导过程.实际上，若 
沿用有关记号，则有限可加性保证了 （1.5. 10) 式的成立，而下连 
续性保证了 （1.5. 13) 式即 （1.5.12) 式的成立，通过 （1.5. 11) 式立 
刻得到可列可加性. 

必 要性: 其中⑴我们早已建立•为证 （ ii )， 设是^中一个 
单调不减的集序列，那么 


若定义= 0，则 




这里的 （&-5^)，纟=1，2,〜由于乂的单调性，显然两两互不相容， 
因此由可列可加性得 

P ( U s ,) = XP ( S i - S i _ l ) = limf j P ( S i - S i _ l ) 

i= 1 i = 1 n_ *® i=l 

但是 

t p (S i -S i . l )=P(f j (S i -S i . l ))=P(S n ) 

1 = 1 i = 1 

因此 

P ( lim 5 J = limP (5 J 

fi—♦« fi—♦» 

这就证得了 P 的下连续性. 

系 1 概率是下连续的. 

系 2 概率是上连续的，即若 A e %而且 B { D B i+l , i = 1, 
2, …，则 

limP ( fi n ) = P(limBJ (1.5. 15) 

[证明]记，则 is t •丨是单调不减的，由系 1 可得 

5 J = P ( lim 5 J = P ( {j S ,) = P ( H B ,) 

一 i = i « = i 

因此由 （1.5.3) 式，可知 

1 - \ imP ( B n )=l - P ( H B ( ) 

一 i = i 

oo 

注意到 \ imB n =n B , ，即得式 （1.5. 15). 

«-** i = i 

系 3 P( UA t )^ X P (4). 

' i=l , t = 1 

五、概率空间 

在科尔莫戈罗夫的概率论公理化结构中，称三元总体 （/2, 多; 
P ) 为概率空间，其中/2是样本空间，，是事件域，/>是概率，它们 
都认为是预先给定的，并以此作为岀发点讨论种种问题.至于实际 
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问题中，如何选定仏怎样构造，怎样给定 P ， 则要视具体情况 
而定. 

下面讨论几个具体例子. 

[例 7] (有限概率空间）设中只有〃个点，这类概率空间 
在§2中已有讨论，古典概型即为其特例.在这种场合 ，一 般可取 
.，为 n 的所有子集全体，这仍是一个有限的集合，元素总数为 2 ", 
它满足事件域的三个要求，而且样本点（看作一个单点集）是事 
件.至于概率，只要对样本点叫,〖=1，2,…，/ I ，给定满足 

p ( o ) i ) 彡0, i = 1 ,2,". 
p((Oi ) + p ( co 2 ) + + P ((0 n ) = 1 

的一组数/>(%), p ( o > 2 ) ，…, pUJ , 那么，若 A 是，中元素，包含 
样本点叫,，…，,则由概率的可加性，自然应令 
P ⑷…+ p (( o ik ) 

这就给定了事件4的概率，从而构成了概率空间 
这时显然有尸 （\(Oi \ ) = p (( Oi ) ,e= 1,2, ••- ,71. 

从这个例子中看到下面两点. 

(1) 选定了（/2,巧之后，对于事件概率的给定还有相当大的 
灵活性，这表现在/>(%)的选取上.因为只有这样，才能用概率空 
间来描述不同的随机现象.例如在投一次硬币的试验中，总是由 
出正面（仿一及出反面 （ o > 2 ) 两个样本点构成.对于均勻的硬币，可 

以假定它岀正面及反面的概率均为但对于很不均匀的硬币，例 

如岀正面可能性大得多的硬币，则必须给定另外的概率，而这只须 
适当给定 P (叫）就可 以了. 

(2) 一旦诸 p (^) 给定后，事件4的概率并不能任意给定，即 
在事件域中，各事件的概率有一定关系，给定概率时必须满足这些 
关系. 

[例 8] (离散概率空间）由可列个点 构成： /3 = | 叫， 
叫，…丨，这时，还是可以选为的子集全体，它满足事件域的三 
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个要求.这时样本点也是事件.为给定概率，可选择可列个非负的 
数 Pi , i = l ，2, …满足 

00 

TPi = l 

i= 1 

分别作为样本点叫的概率，而一般事件4 的概率，则必须取为 

它所含的样本点的概率之和. 

[例 9] 若即样本空间由全体实数构成，这时^不能 
取为/2的一切子集，因为这个集类太大，无法在其上定义概率.这 
时通常取为直线上博雷尔点集全体.尊，这是相当大的一个集 
类，可以把实际问题中所有感兴趣的点集都包括在内.另一方面在 
博雷尔 0" 域上定义概率相当方便，这只要对左闭右开区间给定概 
率即可.这些我们将在第三章中作深人讨论. 

顺便指出，若不是 R 1 ， 而是它的一部分，也可类似处理.譬 
如为一个区间，这时多可取为该区间上的博雷尔点集全 体：它 
们通过直线上博雷尔点集与该区间之交而得到. 

[例 10] 若 /2= R n (或 R n 的一部分），这时可类似于一维场 
合取 n 维欧几里得空间中的博雷尔点集全体^作为事件域在 
第三章§2中将对这种场合进行深人讨论. 

1 第一章 小结二 

1 . . . 一 

本章中介绍了 一类新的现象——随机现象，这是一种普遍存 
在的现象.在大量随机现象中存在着统计规律性，概率论便是研究 
随机现象的数量规律的一门数学学科. 

“事件”与“概率”是概率论中最基本的两个概念，我们在公理 
化结构中严格地定义了这两个概念. 

为了使读者清楚地理解事件与概率的直观意义，我们采用由 
具体到抽象，由简单到复杂，由特殊到一般的方式分别介绍了频 
率、古典概型、几何概率，并从中归纳出事件与概率的本质特征，为 
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公理化定义作准备，这种讲法基本上与概率概念的历史发展平行. 

事件的运算及概率的性质是本章的基本内容，也是学习以后 
各章的必要基础，务必牢固 掌握. 

我们较完整地研究了古典概型，并介绍了它在产品抽样检查 
中的应用•对于古典概型的讨论有助于对概率论基本概念的直观 
理解，而且在以后讨论更一般的情况时，也常以它为特例加以考 
察.古典概型中概率的计算有较高的技巧性，读者应该掌握一些最 
基本的计算方法. 

几何概率是很有启发性的一类问题，不过它的严格表述只有 
用到第三章的一些概念才能做到. 

搞清频率与概率的关系是十分重要的一个课题，今后我们将 
一再回到这个问题上来. 

书中我们着重把现代概率论公理化结构作为一个历史发展过 
程来描述，有兴趣的读者不妨试着进行相反而相成的另一项 工作： 
用公理化结构来概括古典概型、几何概率等特殊模型. 

尽管公理化结构是对抽象样本空间给定的，但应用中我们还 
是最关心欧几里得空间，在这种场合，博雷尔点集是一个重要的概 
念，在第三章中，它将起关键作用. 

[习题一 I 

1. 在某城市中，共发行三种报纸在这城市的居民中，订阅4的 
占45%，订阅5的占35%，订阅 C 的占30%，同时订阅4及5的占10%，同 
时订阅4及 C 的占8%，同时订阅 B 及（：的占5%，同时订阅令5,(：的占 
3%，试求下列百分率：（1)只订阅4 的； （2) 只订阅4及 B 的； （3) 只订阅一 
种报 纸的； （4) 正好订阅两种报 纸的； （5) 至少订阅一种报 纸的； （6) 不订阅 
任何报纸的. 

2. 若是随机事件，说明下列关系式的概率意义：（1) ABC = A ； 
(2) AUBUC = A ；(3) ABCC ；(4) AcBC . 
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3. 在某班学生中任选一个同学，以事件 4 表示选到的是男同学，事件 
表示选到的人不喜欢唱歌，事件（:表示选到的人是运动员. （ 1 ) 表述乙及 
ABC ；(2) 什么条件下成立 4 fiC = v 4 ; (3) 何时成立亡 CB ;(4) 何时同时成立 
A = B RA = C . 

n 

4. 试证： 0 4 | = 41+3142+313243—..+313233...3»1-1人，并对 ；1 = 4 ，画出 

1 = 1 

文图. 

5. 为“剪刀 • 石头 • 布”游戏造一个样本空间，定义有关事件，并考虑如 
何给定概率. 

6. 若 4， fi ， C ， Z > 是四个事件，试用这四个事件表示下列各事件：（1)这 
四个事件至少发生一个：（2) 都发生而 C ，/> 都不 发生； （3) 这四个事件 
恰好发生 两个； （4) 这四个事件都不 发生； （5) 这四个事件中至多发生一个. 

*7. 从0，1，2,…，9中随机地取出5个数（可重复），以尽记某些数正好出 
现^次这一事件（例如52353,既 属于尽 ，也属于£ 2 及£。），试用文图表示£。， 
尽，…， A 的关系. 

8. 证明下列 等式： 



(3) ILM0 = 



9. 一部五卷的文集，按任意次序放到书架上去，试求下列概率：（1)第 
一卷出现在 旁边； （2) 第一卷及第五卷出现在 旁边； （3) 第一卷或第五卷出 
现在 旁边； （4) 第一卷及第五卷都不出现在 旁边； （5) 第三卷正好在正中. 

10. 甲袋中有3只白球，7只红球，15只黑球，乙袋中有10只白球，6只 
红球，9只黑球，现从两袋中各取一球，求两球颜色相同的概率. 

11. 袋中有 n 只球，记有号码1,2,〜，/1，求下列事件的概率：（1)任意取 
出2球，号码为1，2;(2)任意取出3球，没有号码1; (3) 任意取出5球，号码 
1,2,3中至少出现一个. 

12. 袋中装有1，2,…， 7 V 号的球各一只，釆用 （1) 有 放回； （2) 不放回方 
式摸球，试求在第 A 次摸球时首次摸到1号球的概率. 
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13. 从 6 双不同的手套中任取 4 只，问其中恰有一双配对的概率是多 


少？ 

14. 从 n 双不同的鞋子中任取 2r(2r<n) 只，求下列事件发生的概率：（ 1) 
没有成对的 鞋子； （ 2) 只有一对 鞋子； （ 3) 恰有两对 鞋子； （ 4) 有 r 对鞋子. 

15. m 个男孩和 n 个女孩 U 在 m ) 随机地沿着圆桌坐下，试求任意两个 
女孩都不相邻的概率. 

16. (分赌注问题）甲、乙二人各出赌注 fl ， 约定谁先胜三局则赢得全 
部赌注，现已赌三局，甲二胜一负，这时因故中止赌博，若二人赌技相同，问应 
如何分配赌注，才算公平合理？ 

17. 从52张扑克牌中任意取出13张，求：（1)有5张黑桃，3张红心，3 
张方块，2张草花的 概率； （2) 牌型分布为7-3-2-1(最长花色有7张，最短 
花色有1张，其余二花色分别有3张及2张）的概率. 

18. 桥牌游戏中（四人各从 52 张纸牌中分得 13 张），求 4 张 A 集中在一 
个人手中的概率. 

*19. 在扑克牌游戏中（从 52 张牌中任取 5 张），求下列事件的 概率： 

(1) 以 A 打头的同花顺次五 张牌； （2) 其他同花顺次五 张牌； （3) 有四张牌 
同 点数； （4) 三张同点数且另两张也同 点数； （5) 五张 同花； （6) 异花顺次五 
张牌； （7) 三张同点数，另外两张不同 点数； （8) 五张中有 两对； （9) 五张中有 
一对； （10) 其他情况. 

20. 从装有号码1,2,…， yv 的球的箱子中有放回地摸了 71次球，依次记 
下其号码，试求这些号码按严格上升次序排列的概率. 

21. 在上题中这些号码按上升（不一定严格）次序排列的概率. 

22. 任意从数列1，2,…， AT 中不放回地取出 n 个数并按大小排列成 : 义< 
x 2<''' < x m <,,,<x n ，试求 x m =M 的概率.这里 

^23. 上题中，若釆用有放回取数，这时士在 々在… 在…试求 
的概率. 

24. 从（0，1)中随机地取两个数，求下列概率：（1)两数之和小于 1.2; 

(2) 两数之积小于;(3)以上两个要求同时满足. 

4 

25. 从（0，1)中随机地取二数6及0，试求 方程/ +& + C = 0 有实根的 
概率. 

26. 在一张打上方格的纸上投一枚直径为1的硬币，方格要多小才能使 
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硬币与线不相交的概率小于 1%. 

27. 某码头只能容纳一只船，现预知某日将独立来到两只船，且在24小 
时内各时刻来到的可能性都相等，如果它们需要停靠的时间分别为3小时及 
4小时，试求有一船要在江中等待的概率. 

28. 两人约定于7点到8点在某地会面，试求一人要等另一人半小时以 
上的概率. 

29. 在一线段中随机地取两个点把线段截为三段，求这三段可以构 
成一个三角形的概率（三线段能构成三角形的充要条件是任意二边之和大 
于第三边） • 

30. 在线段 [0,1] 上任意投三个点，问由0至三点的三线段能构成三角 
形与不能构成三角形这两个事件中哪一个事件的概率大. 

’31. 从一只装有100只灯泡的箱子中任抽5只灯泡，发现有2只是次品， 
你对此批灯泡的次品数作何估计？（这种抽査当然用不放回方式.比较用最 
大似然估计法所得结果与用频率估计概率法的结果是否相同 .） 

*32. 利用概率论的想法证明下列恒 等式： 

A - a (A - a)(A - a - 1 ) … (A - g )-2 » 1 = A _ 

+ 4-1+ (A - 1)(^4 - 2) + (A - l)---(a + \ )a a 

其中都是正整数，且 

33. 设七，毛，…，欠是随机事件，试用归纳法证明下列公式 

… tMJ 

n 

= I nA t )- X P (M) 

i = 1 1 < i <n 

l ^ i<j < k^n 

34. 某班有 yv 个士兵，每人各有一支枪，这些枪外形完全一样，在一次夜 
间紧急集合中，若每人随机地取走一支枪，问至少有一个人拿到自己的枪的 
概率. 

*35. 在上题中求恰好有在 A 0 个人拿到自己的枪的概率. 

36. 从一副扑克牌中有放回地一张张抽取，求在抽取第6张时得到全部 
4种花色的概率. 

_37.考试时共有 yv 张考签， n 个学生参加考试 （ n 多 A 0, 被抽过的考签立 
刻放回，求在考试结束之后，至少有一张考签没有被抽到的概率. 
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*38. (赠券收集）食品厂把印有水浒 108 将之一的画卡作为赠券装入某 
种儿童食品袋中，每袋一卡，试求购买 n 袋这种食品而能收齐全套画卡的 
概率. 

_39.用概率论想法求 yv 阶行列式的展开式中包含主对角线元素的项数. 

40.有个白球与6个黑球任你放人两个袋子中，让你的朋友随机抽一 
袋并从中摸出一只球，你将如何做以使你的朋友摸得黑球的概率最大. 

*41. 甲，乙，丙三人按下面规则进行比赛，第一局由甲，乙参加而丙轮空， 
由第一局的优胜者与丙进行第二局比赛，而失败者则轮空，比赛用这种方式 
一直进行到其中一个人连胜两局为止，连胜两局者成为整场比赛的优胜者， 

若甲，乙，丙胜每局的概率各为+ ,问甲，乙，丙成为整场比赛优胜者的概率 

各是多少？ 

*42. 父，母，子三人举行比赛，每局总有一人胜一人负（没有和局），每局 
的优胜者就与未参加此局的人再进行比赛，如果某人首先胜了两局，则他就 
是整个比赛的优胜者，由父决定第一局由哪两人参加，其中儿子实力最强，所 
以父为了使自己得胜的概率达到最大，就决定第一局由他与妻子先比赛，试 
证父的决策为最优策略（任何一对选手中一人胜对方的概率在整个比赛中 
是不变的）. 

43. 给定/> = P(A) f q = P(B)，r = P(A U i ?) ，求/ >( W ) 及/ >(3 5). 

44. 设 p ,， p 2 ， p 12 是给定的实数，试证存在两个事件 I 及4使得 
P(A { ) = Pl ,P(A 2 ) =p 2 f P(A l A 2 ) = p 12 的充要条件是下列四个不等式同时 
成立： 

p l 2 多0， Pi - p l2 5 s 0, p 2 - p l2 ^ 0, 1 - Pi - p 2 + Pl 2 ^ 0 

45. 证明： \P(AB) -P(A)P(B) I 彡+，并讨论等号成立的条件. 

46. 求包含事件的最小■域. 

47. 证明：（1) 的一切子集组成的集类是一个^ ■域； （2) a 域之交仍 

为^域. 

48. 证明： 包含一切形为 （-00 ，％)的区间的最小^域是一维博雷尔 c 
域. 

49. (1) 设(？是定义在 o ■域上的非负广义实值函数（即可以取有限或无 
限值的函数），如果它具有可列可加性，并且0 )= 0,则称为测度，试说 
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明测度概念是算术中计数概念及几何中长度、面积、体积等概念的 推广; 
(2) 用测度概念解释古典概型、几何概率及概率论公理化结构中关于概率的 
定义. 

*50. 试 证：概 率定义 1.5.2 中的三个要求可用下列两个要求 代替： 

( i ) 

00 00 

( ii ) 若次 e $ i = l ,2, …，两两互不相容，且 Z 则^ P(A ( )= 1. 

i= 1 i= 1 
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第二章条件概率与统计独立性 


§1. 条件概率，全概率公式，贝叶斯公式 

一、条件概率 

对概率的讨论总是在一组固定的条件限制下进行的.以前 
的讨论总是假定除此之外再无别的信息可供使用，可是，有时我 
们却会遇到这样的情况，即已知某一事件6已经发生，要求另一 
事件4发生的概率.例如考虑有两个孩子的家庭，假定男女出生 
率一样，则两个孩子（依大小排列）的性别为（男，男），（男，女）， 
(女，男 ），（ 女，女）的可能性是一 样的. 若以4记随机选取的这 
样一个家庭中有一男孩、一女孩这一事件，则显然 

但是如果我们预先知道这家庭至少有一个女孩，那 

么，上述事件的概率便应是|~. 

两种情况下算出的概率不同.这也很容易理解，因为在第二种 
情况下，我们多知道了一个条件 ：事件 (这一家庭至少有一女 
孩）发生，因此我们算得的概率事实上是“在已知事件6发生的条 
件下，事件 4 发生的概率”，这个概率我们将记之为/ >(4 15). 

这种带有条件的概率很重要，下面我们就来研究它.在给出严 
格定义之前，先考察一些特殊的场合. 

就从上述例子出发.这是一个古典概型问题，样本点总数 n = 
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4, 有利于事件 4 的场合数％ =2,因此 P (4)= 但是假如已知 

事件 S 发生，即至少有一女孩，那么可能发生的样本点是（男， 
女），（女，男），（女，女），总数为％ = 3,而有利场合（至少有一女 
孩，而且有一男孩 、一 女孩）数 m ^ = 2, 因此 


P(A I 





P(AB) 

P(B) 


这式子很重要，虽然我们以特例形式引人，但读者不难证明，它对 
一般古典概型问题也成立. 

在几何概率中，若以 m(A) ,m(B) 9 m(AB) , m (/2) 分别记事件 
4,5，>^，/2所对应点集的测度，且饥（5)>0，则 


P(A I B) 


m(AB) 

m(AB) m{n) _ P{AB) 
m(B) = ~ln{B) = 1 } (B) 
m(I2) 


结果与古典概型相同. 

对频率也有类似结果,请读者自行验证. 

在一般场合，我们将把这个算式作为条件概率的定义. 

定义 2.1.1 设是一个概率空间， Be 罵而且 
P ( B )>0, 则对任意记 


P ( A \ (2.1.1) 

并称 IS ) 为 在事件 S 发生的条件下事件 4 发生的条件概率 
(conditional probability ). 

若未经特别指出，今后出现条件概率 P (4 IB ) 时，都假定 
P(B)>0. 

不过，即使 P ( B )=0, 由于这时也必为0,因此 （2. 1.1) 
式为待定型，进一步的研究是可能的，但已超出本书的范围. 
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由 （2. 1.1) 式立刻得到 

P(AB) =P(B)P(A I B) (2.1.2) 

这个等式被称为概率的乘法公式或乘法定理. 

若还有 P (>0>0, 则也可定义 P(B\A) ，这时有 

P(AB) = P(A)P(B I A) =P(B)P(A I B) (2.1.3) 

[例 1] 在肝癌普查中发现，某地区的自然人群中，每十万人 
内平均有40人患原发性肝癌，有34人甲胎球蛋白高含量，有32 
人既患原发性肝癌又出现甲胎球蛋白高含量. 

从这个地区的居民中任抽一人,若他患有原发性肝癌则记为 
C ， 甲胎球蛋白高含量记为这时 

P(C)=0. 000 4, P ( Z >)= 0. 000 34, P ( CZ >)=0. 000 32 

由条件概率定义可得 


P(D\C) = 


P{CD) 0. 000 32 
P ( C ) = 0.000 4 


P(C\D) = 




通过计算得知，患原发性肝癌的人有80%其甲胎球蛋白呈现 
出高含量，而甲胎球蛋白的测定大大有助于发现原发性肝癌 患者: 
若出现高含量，则有高达94%以上的概率对患原发性肝癌作出正 
确诊断. 


由于事件 D 的发生，使事件 c 发生的概率由 0. 000 4 —下子 
上升到 0.941 2. 可见，事件发生的概率，与条件有关，也即与信息 
有关. 

下面讨论条件概率的性质. 

首先，不难验证条件概率具有概率的三个基本 性质: 
非负性、规范性、可列可加性. 

( i ) P(A\B)^0 ； 


( ii ) P(fI\B)= 1 ； 


( iii ) 尸（2岑1方 ） =X 

e = 1 
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因此，类似于概率，对条件概率也可由三个基本性质导出其他 
一些性质，例如 

P ( 0 \ B)=O 
P ( A \ B )= l - P ( A \ B ) 

P ( A X UA 2 \ B )= P ( A l \ B )+ P ( A 2 \ B )- P ( A l A 2 \ B ) 

特别当时，条件概率化为无条件概率，因此把一般的概率看 
作条件概率也未尝不可. 

[推广的乘法公式]可以把乘法公式推广到任意〃个事件 
之交的 场合： 

P { A { A 2 - A n ) = P ( A { ) P ( A 2 \ A v ) P ( A , … 

尸(人丨 W "( i ) (2.1.4) 

这里当然要求 p ( w ” u > o . 

[例 2] (波利亚坛子模型）坛子中有6只黑球及 r 只红球， 
随机取出一只，把原球放回，并加进与抽出球同色的球 c 只，再摸 
第二次，这样下去共摸了 〃次，问前面的\次出现黑球，后面的 

次岀现红球的概率是多少？ 

[解]以岑表示第一次摸出黑球这一事件，…，炎,表示第\ 
次摸出黑球,< 1+1 表示第 n I + l 次摸出红球，•••，<表示第〃次摸出 
红球.则 


P(A,)= 



P(A 2 \A,)= 


6+c 

b+r+c 


P(A 3 \A l A 2 ) = 


b+2c 

b+r+2c 9 


P(A ni \A r -A ni _ l ) = 


6 + ( -1 )c 

6+r+( n t -l)c 


P(A ni+1 iA r -A nj ) : 


b+r+n^ 


/ >(\ +2 IV 人 +1 ): 


b+r+(n t +l)c 9 
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因此 


P ( A n \ A r - A n _ l ) = 


r+(n 2 -l) c 
b+r+( n-\)c 


P ( W 人)=土 



6 + r + c 


b + 2 c 
6 + r + 2 c 


6+( n x -l)c 
6+ r +( n x -\)c 


r r+c 

• — - 

b+r+n^c b+r+(n l + l )c 
r+(n 2 -l) c 
6+ r +( n-\)c 

注意这个答案只与黑球及红球出现次数有关，而与出现的顺序 
无关. 

这个模型曾被波利亚 （ P 6 lya ) 用来作为描述传染病的数学模 
型.这是很一般的摸球模型，特别取 c = 0, 则是有放回 摸球； 取 C = 
-1，则是不放回摸球. 


二、全概率公式 


概率论的重要研究课题之一是希望从已知的简单事件的概率 
推算出未知的复杂的事件的概率.为达到这个目的,经常把一个复 
杂事件分解为若干个不相容的简单事件之和，再通过分别计算这 
些简单事件的概率，最后利用概率的可加性得到最终结果.这里， 
全概率公式起着很重要的作用. 

我们还是从最简单的情况开始.为计算 P(B ) ，找一个有关的 
事件1利用下列关系式 

P(B)= P(AB)+P(AB) 

= P(A)P(B\A)+P(A)P(B\A) (2.1.5) 

便是常用的方法之一. 

例如为计算从装有 a 只黑球和6只白球的袋子中不放回摸 
球，第二次摸得黑球的概率 P(B) ，我们可以选4为第一次摸得黑 


• 66 • 



球，则 


P(B) = 


a 


a+6 



a+6 — 1 o+6 


a 


a+b 

这不就是摸球与顺序无关吗？是的，但这个计算让我们对这 
个结论有了新的理 解：后 摸者可能处于“不利境况”，那就是先摸 

者摸到黑球，这时他摸到黑球的概率降为^>^但是他也可能处 

a+6-l 

于“有利境况”，那就是先摸者摸到白球，从而使他摸到黑球的概 
率升为 ^ T ， 最终，正确的答案是二者的加权平均，这些权^及 

正是处于“不利境况”与“有利境况”的概率.这样一看，这答 

a+o 

案既合情又合理. 

下面讨论一般的情况. 

设事件 < …，人，…是样本空间的一个分割，亦称完备 

事件组 ，即人 （ i = 1,2,…，，…）两两互不相容，而且 

Q 0 

i= 1 

这样一来 

00 

B = Z A ^ B 

i = 1 

这里的 < B ( i = l ，2, …， ，…）也两两互 
不相容（参看图 2. 1.1). 

由概率的完全可加性 

Q 0 

P(B)= X P ( A i B ^ 

i= 1 

再利用乘法公式即得 图 2. 1.1 样本空间的分割 
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P ( B ) = ^ PiA ^ PiBlA ,) (2.1.6) 

i= 1 

这公式称为全概率公式，它是概率论中使用频率最高的一个基本 
公式. 

从推导中可以看出，当 PK .)=0 时，只要把相应的项当作0 
即可.在多数问题中， （2. 1.6) 式只含有限项. 

[例 3] 雨伞掉了.落在图书馆中的概率为50%,这种情况 
下找回的概率为 0. 80;落在教室里的概率为30%，这种情况下找 
回的概率为 0. 60;落在商场的概率为20%，这种情况下找回的概 
率为 0.05, 求找回雨伞的概率. 

[解]以6表示找回雨伞，而以七，4,皂分别记雨伞落在图 
书馆，教室和商场，显然七，皂,4满足 

3 

B= X A,B 

» = i 

而且 P ( A l )= 0. 5, P ( A 2 )= 0. 3, P ( A 3 )= 0. 2, P (5 M ,)= 0. 8, 
/ > (51>1 2 )=0.6，戶（忍1/1 3 )=0.05,因此 

3 

P ( B )= X P ( A i ) P ( B \ A i ) 

i= 1 

= 0.5 x 0. 8+0. 3 x 0.6+0. 2 x 0. 05 =0. 59 
可以看出，全概率公式之所以有力，就在于它概括了一种普遍 
的解题策略 .•各 个击破或分而食之. 

三、贝叶斯 （ Bayes ) 公式 

若事件6能且只能与两两互不相容的事件心，…… 
之一同时发生，即 

ao 

i= 1 

由于 

P ( A .5) = P ( B ) P ( A i I B ) = P ( A t ) P (5 I A ,) 
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故 


P ( A i \ B ) = 

再利用全概率公式即得 

P ( A i \ B ) = - 


P ( A i ) P ( B \ A i ) 

P ( B ) 

P { A i ) P { B \ A i ) 


Y j P { A i ) P { B \ A i ) 

1=1 


这个公式称为贝叶斯公式. 


(2. 1.7) 


贝叶斯公式提出了重要的逻辑推理思路，在概率论和数理统 
计中有着多方面的应用.假定岑，4,…是导致试验结果的“原 
因”， />(<) 称为先验概率，它反映了各种“原因”发生的可能性大 
小，一般是以往经验的总结，在这次试验前已经知道.现在若试验 
产生了事件 B ， 这个信息将有助于探讨事件发生的“原因”.条件 
概率称为后 验概率，它反映了试验之后对各种“原因”发 
生的可能性大小的新知识.例如在医疗诊断中，医生为了诊断病人 
到底是患了疾病七，毛，…，人中的哪一种，对病人进行观察与检 
查，确定了某个指标 S (譬如是体温、脉搏、血液中转氨酶含量等 
等），他想用这类指标来帮助诊断.这时就可以用贝叶斯公式来计 
算有关概率.首先必须确定先验概率 P ( A l ) ，这实际上是确定人患 
各种疾病的可能性大小，以往的资料可以给出一些初步 数据; 其次 
是要确定次），这里当然主要依靠医学知识.有了它们，利用 
贝叶斯公式就可算出 PiA . lB ). 显然，对应于较大 P (| I 5) 的“病 
因”4,应多加考虑.在实际工作中，检查的指标6—般有多个，综 
合所有的后验概率，当然会对诊断有很大帮助.在实现计算机自动 
诊断或辅助诊断的专家系统时，这方法是有实用价值的. 

下面介绍应用贝叶斯公式的几个例子. 

[例 4] 在数字通信中，由于存在着随机干扰，因此接收到的 
信号与发岀的信号可能不同，为了确定发出的信号，通常要计算各 
种概率，下面只讨论一种比较简单的模型——二进位信道. 
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若发报机以 0.7 和 0.3 的概率发出信号0和 1( 譬如分别用 
低电平与高电平表示），由于随机干扰的影响，当发出信号0时， 
接收机不一定收到0,而是以概率 0.8 
和 0.2 收到信号0和1;同样地，当发 
报机发出信号1时，接收机以概率 0.9 
和 0.1 收到信号1和 0. 其关系如图 
2. 1.2 所示. 

假如接收机收到信号0,则这时 
有两种可能情况 ：第一 种情况是发报 



图 2. 1.2 二进位信道 


机确实发岀信号0,而信号传输中没有 出错； 第二种情况是发报机 
发出信号1,但是传输中出现错误，因此接收到信号0.所以在这类 
问题中，计算“当接收机收到信号0时，发报机是发出信号0的概 
率”便很有必要. 

把发报机发出信号0记为事件人，发出信号1记为事件<， 
接收机接到信号0记为事件我们要求的是 P(A 0 \B). 

由于尸（^ } )=0.7,尸（00.3,尸（忍1^ ) )=0.8，/>(別义）= 
0.1，用贝叶斯公式， 


P(A 0 \B)= 


P(A 0 )P(B\A 0 ) 

P(A 0 )P(B\A 0 ) + P(A l )P(B\A l ) 


0. 7 x 0. 8 


0. 56 


0.7 x 0. 8+0. 3 x 0. 1 0.59 


：0. 949 


[例 5] 假定用血清甲胎球蛋白法诊断肝癌，户（410)= 
0.95, P (3 IC )=0. 90,这里（:表示被检验者患有肝癌这一事件 M 
表示判断被检验者患有肝癌这一事件.又设在自然人群中 P ( C ) = 
0.000 4. 现在若有一人被此检验法诊断为患有肝癌，求此人真正 
患有肝癌的概率/ 

[解]由贝叶斯公式， 


P(C\A)= 


P(C)P(A\C) 

P(C)P(A\C)+P(C)P(A\C) 
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a OOP 4 x 0. 95 

= 0. 000 4 x 0. 95+0. 999 6 x 0. 1 


= 0.003 8 

既然检验法相当可靠，那么为什么用该法诊断为肝癌的人真 
正患有肝癌的可能性却如此之小呢？经过分析可以看出，主要是 
先验概率 P ( C ) 很小.对自然人群来讲肝癌毕竟是一种罕见病.假 
如对十万人进行普查，肝癌患者约40人，用该法检查，可正确査出 
约38人，漏掉2 人； 但对于99 960个正常者，虽然该法的误检率 
只有10%，却要错判9 996人，因此在38+9 996 = 10 034个嫌疑者 

中，每人事实上只有：^^ = 0.003 8的可能性真的患有肝癌. 


如果我们检查的是一个肝癌的可疑人群，譬如一批普查中筛 
选出的甲胎球蛋白高含量者，这时相应的先验概率就高得多，例如 
就取例1中的 0.941 2,那么 


P(C\A) = 


0. 941 2 x 0. 95 

0. 941 2 x 0. 95+0.058 8 x 0. 1 


= 0.993 5 


因此相应的后验概率也就大大提高.实际上，从预防医学的普查到 
治疗医学的诊断正是如此一级一级筛选的. 

这个数值例子给我们的最大启示 是:后 验概率的大小很受先 
验概率选取的影响. 

在贝叶斯公式的使用中，最有争议之点就是先验概率的选取. 
我们上面所举的两个例子中，这些先验概率都是通过以往大量实 
际调查而得出的，符合概率的频率解释，因此使用中不致于发生 
疑问. 

不过，在贝叶斯公式的使用中也还存在着另一种情况，就是先 
验概率是由某一种主观的方式给定的，譬如对于未来宏观经济形 
势的看法,对物价、利率、汇率变化的估计，对某种新型产品上市后 
受欢迎程度的预估，甚至对某星球上存在生命现象的估计等等.这 
种把概率解释为信任程度的做法含有明显的主观性，通常称为主 
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观概率. 

主观概率与贝叶斯学派的发展息息相关，后者是二战后得到 
很快发展的统计学派，理论上与决策理论关系密切,并且找到不少 
应用.因此对于主观概率的争论看来将长期持续下去. 

贝叶斯方法的大量应用出现在决策问题中，下面是自动识别 
系统的一个例子. 

[例 6] (贝叶斯决策）为了判断一个字母是 “ C ” 还是 
“0”，通常采用先抽取它的某一个特征 X ,然后再根据这个特征作 
出判决，这时贝叶斯决策是常用方法之一. 


以次，冯分别记被检验的字母为 C 或0这一事件，它们的先 
验概率/^(义）及 P (') 应预先给定，此外要通过试验确定 
PUI 义） 及 PUIA ) ，由贝叶斯公式得 

P{A i )P{X\ A { ) 


P(A t \ X) 


^P(A t )P(X\ 


其中， 1,2 .若/ > (次 IZ )> P (4 IZ ), 则作出决 策：具 有特征 X 的 
字母是 C . 


这个方法在模式识别这一新兴学科中有重要应用，当然，这里 
是大为简化了的模型. 


§2. 事件独立性 

一、两个事件的独立性 

本节中我们引进一个新的概念——统计独立性.先从两个事 
件的独立性开始，然后讨论更为一般的场合. 

还是从考虑古典概型的一个例子作为岀发点. 

[例 1] 一口袋中装有 a 只黑球和6只白球，釆用有放回摸 
球，求： 
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(1) 在已知第一次摸得黑球的条件下，第二次摸岀黑球的概 


率； 


(2) 第二次摸岀黑球的概率. 

[解]以事件4表示第一次摸得黑球，事件 S 表示第二次摸 
得黑球.则 


尸⑷ 


a 


b 


,P{AB) 


所以 


P(B I A ) 


(a + b ) 2 

P ( AB ) 

: P(A ) : 


9 P ( AB ) 


ba 


(a + 6) 2 


a 


+ b 


P ( B ) = P ( AB ) + P ( AB ) 


+ 


ba 


a 


、a + b ) 2 (a + b ) 2 a + 6 
注意这里的 PM M )= PM ), 即事件 4 发生与否，对事件 B 发生 
的概率没有影响.从直观上讲，这很自然.因为我们这里采用的是 
有放回摸球，因此第二次摸球时袋中球的组成与第一次摸球时完 
全相同，当然第一次摸球的结果实际上不影响第二次摸球.在这种 
场合可以说，事件4与事件 B 的出现有某种“独立性”. 

对此，我们引进 

定义 2.2.1 对事件 4 及若 


P ( AB )= P ( A ) P ( B ) (2.2.1) 

则称它们是统计 独立的 ，简称 独立的 （ independent ). 

注意，按照这个定义，必然事件及不可能事件0与任何事 
件独立.此外，从 （2. 2. 1) 中看出，4与 B 的位置对称，因此亦称4 

与 B 相互独立. 

推论 1若事件独立，且 P ( B )>0, 则 

P ( A \ B ) = P ( A ) (2.2.2) 

[证明]由条件概率定义及 （2. 2.1) 得 
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P ( A \ B )= 


P ( AB ) P ( A ) P ( B ) 

P ( B ) " P { B ) ^ } 


因此，若事件相互独立，则 4 关于 S 的条件概率等于无条件 
概率 P ( A ) ，这表示6的发生对于事件4是否发生没有提供任何 
信息，独立性就是把这种关系从数学上加以严格定义. 

推论 2若事件4与6独立，则下列各对事件也相互 独立： 
\ A , B \ 9 \ A , B \ 9 \ A 9 B \ 


[证明]由于 

P ( AB )= P ( B - AB ) = P ( B ) - P ( AB ) 


= P ( B )- P ( A ) P ( B )= P ( B )[ l - P ( A )] 
= P ( A ) P ( B ) 

所以 3 与 6 相互独立，由它立刻推出3与5相互独立，由 
2=4又推岀>1,5相互独立. 


不放回摸球模型提供了不独立的一个简单的例子. 

[例 2] 在前例中，若釆用不放回摸球，试求同样那两个事件 
的概率. 

[解]这时 


P ( A ) = 


a 

a+b 


P ( AB ) = 


a(a-1) 

( a + b )( a + b — 1 ) 


所以 


P ^ B)= ( a +6)( a +6- l ) 


而 


P ( B \ A )= 


P { AB )_ a -1 
P ( A ) = a +6 -l 


P ( B )= P ( AB )^ P ( AB ) = -^- 

a+o 

这里 P { B \ A ) #尸（5) , 即事件 5 与事件 >1 不是相互独立的.因为 
第一次摸得黑球，事实上已使袋中球的组成成分改变了，当然要影 
响第二次摸得黑球的概率.而/,即抽签与顺序无关. 
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二、多个事件的独立性 


我们先定义三个事件 > M , c 的独立性. 

定义 2.2.2 对于三个事件 /1, C ， 若下列四个等式同时成 
立,则称它们相互独立. 

P(AB)=P(A)P(B) 

P(BC) = P(B)P(C) , (2.2.3) 

P(AC) = P(A)P(C). 

P(ABC) = P(A)P(B)P(C) (2.2.4) 

按两个事件独立性的定义，我们知道若 （2. 2. 3) 成立，则4与 B，B 
与 C , C 与4都相互独立，即两两独立. 

读者自然会提出这样一个问题 ：三个 事件七 1 C 两两独立, 
能否保证它们相互独立呢？即能否由 （2. 2. 3) 推出 （2. 2. 4)? 回 
答是否定的，这从下面简单的例子就可看出. 

[例 3] (伯恩斯坦反例）一个均勻的正四面体，其第一面染 
成红色，第二面染成白色，第三面染成黑色，而第四面同时染上红, 
白，黑三种颜色.现在以分别记投一次四面体出现红，白， 
黑颜色朝下的事件，则由于在四面体中有两面有红色，因此 

p ⑷4 

同理/ = = ^ ■，容易算出 

P(AB)= P(BC) = P(AC) = -j 

所以 （2. 2. 3) 成立，即 4,6,(： 两两独立，但是 

P(ABC) = j-^^- = P(A)P(B)P(C) 

因此 （2.2.4) 不成立，从而不相互独立. 

下面再提供一个例子说明由 （2. 2. 4) 不能推出 （2. 2. 3) ,进一 
步说明要 A B ， C 相互独立必须同时要求 （2. 2. 3) 及 （2. 2. 4) 
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成立. 

[例 4] 若有一个均勻正八面体，其第 1,2,3,4 面染红色，第 
1,2,3,5面染白色，第1,6,7,8面染上黑色,现在以(:分别表 
示投一次正八面体出现红，•白，黑的事件，则 

P(A)=P(B)=P(C) = ^-=j- 
P(ABC) = ^ = P(A)P(B)P(C) 

O 

但是 

P(AB) = ^^^- = P(A)P(B) 

现在我们可以定义 m 个事件的独立性. 

定义 2.2.3 对/ I 个事件岑，… ，乂， 若对于所有可能的组 
合1 d < j < k < …$ 71 成立着 

P(A i A j )=P(A i )P(A j ) 

P(A i A j A k ) = P(A i )P(A j )P(A k ) 


P (岑4…人）=户 (岑） 尸 (4) …户(欠） 

则称七 ，4,…，炎相互独立 • 

这里第一行有个式子，第二行有个式子等等，因此共 

应满足 



个等式.由三个事件的场合可看出同时满足这些关系式是必须的. 

显然若 n 个事件相互独立，则它们中的任何个事 
件也相互独立.此外对于多个相互独立的事件也成立着类似于上 
述推论1及推论2的结果，读者试自行叙述并验证之. 

最后，称无穷多个事件是相互独立的，如果其中任意有限多个 


(2.2.5) 
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事件都相互独立. 


三、事件独立性与概率的计算 

从事件独立性的定义立刻能看 岀：若 事件是独立的，则许多概 
率的计算就可以大为简化.下面先举两个例子. 

[ 相互独立事件至少发生其一的概率的计算]若次，4,…， 
圮是 n 个相互独立的事件,则由于 

uA 2 U - UA n = A l A 2 - A n 

因此 

次 LM 2 U …… I ) 

=1-/>(1)/>( ； ? 2 )…/ >(3J 

( 2 . 2 . 6 ) 

这个公式比起不独立的场合，要简便得多，它经常被用到. 

[例 5] 假若每个人血清中含有肝炎病毒的概率为0.4% , 
混合100个人的血清,求此血清中含有肝炎病毒的概率. 

[解]以岑（〖=1,2,…， 100) 记第 i 个人的血清含有肝炎病 
毒这一事件，可以认为它们相互独立，所求概率为 P (次 U … U 
伞 00 )，由 （2. 2. 6) 得 

伞 oo )= 1-^(3,)... P ( A 100 )= 1-0. 996 100 «0. 33 
虽然每个人有病毒的概率很小,但是混合后则有很大的概率，在实 
际工作中，这类效应值得充分重视. 

顺带指出，没有独立性的假定，上述计算便无从进行.当然这 
里的独立性只能是一种近似.当把某种数学模型用于实际问题时， 
这种近似是不可避免的.因此，作理论研讨时，独立性必须按定义 
验证; 解决实际问题时，独立性通常只是一种恰当的假定. 

[在可靠性理论中的应用]对于一个元件，它能正常工作的 
概率 P , 称为它的可靠性.元件组成系统，系统正常工作的概率称 
为该系统的可靠性.随着近代电子技术的迅猛发展,关于元件和系 
统可靠性的研究已发展成为一门新的学科——可靠性理论. 
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这里，我们通过一些例子来说明有关的概念. 

[例 6] 如果构成系统的每个元件的可靠性均为 r ,0< r < l ， 且 
各元件能否正常工作是相互独立的，试求下面附加通路系统的可 
靠性[见图 2. 2.1( a )]. 

[解]每条通路要能正常工作，当且仅当该通路上各元件正 
常工作，故其可靠性为 

R c = r n 

即通路发生故障的概率为 l _ r n . 由于系统是由两通路并联而成 
的，两通路同时发生故障的概率为 （ l - r n ) 2 , 因此附加通路系统的 
可靠性为 

R s = l -( l - r n ) 2 = r n ( 2 - r n ) = R c ( 2 - R c ) 

注意到 /? e < l ,故化>心,所以附加通路能使系统的可靠性增加. 



( b ) 


图 2 . 2.1 附加备份系统 

[例 7] 在前例条件下，试求下面附加元件系统的可靠性[见 
图 2. 2. 1( b )]. 

[解]每对并联元件的可靠性为 

R r = 1 -( 1- r ) 2 = r (2- r ) 

系统由各对并联元件串联而成，故其可靠性为 
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/?; = (/?') n = r n (2- r 广 

显然 R f s > R c . 因此用附加元件的方法同样也能增加系统的可靠性. 

利用数学归纳法不难证明当 d 时， （2- rr >2- r ' 即 
r > r s . 因此： a 然上面两个系统同样由 2 〃 个元件构成，作用也相 
同 ，但是第二种构成方式比第一种方式可靠性来得大.寻找可靠性 
较 大的构成方式也是可靠性理论的研究课题之一. 

从上述讨论可以看岀，元件与系统的可靠性是用概率来定义 
的，所以概率论是研究可靠性理论的重要工具. 

四、试验的独立性 

有了事件独立性的概念，我们可以定义试验的独立性.直观 
上，试验仏与试验 仏要 能说是独立的，应是指试验 仏的结 果的发 
生与试 验仏的 结果的发生是独立的，所以自然想到通过各试验的 
事件间的独立性来定义试验的独立性.为了做到这点，首先要构造 
一个能描述这些试验的公共的样本空间. 

设试验 A 的样本空间是 A = U (,) | ，试验 A 的样本空间是 
A = U ⑺ 1 ,……试验仏的样本空间是认= U u) I ，为描述这 n 次 
试验，应构造复合试验 I 它表示依次进行试验 A ,4,…，仏，其 
样本点为 

(0= ((0 ⑴ 9 co ( 2) , ••• f co (n) ) 

这个样本空间为 A , A ，… ，认 的乘积空间，记作 

n=n { xn 2 x--xn n 

[例8 ] 若试验仏是掷一枚硬币 ， A = i 正，反 I ，试验 A 是从 
装有红白黑三球的袋子中摸出一球 ， A = i 红，白，黑丨，则复合试 
验芯表示先掷一枚硬币再摸一球，它相应的样本空间 /2= Ax 仏由 
下列6个样本点构成 ：（ 正，红），（正，白），（正，黑 ），（ 反，红）， 
(反，白 ），（ 反，黑）. 

接着我们可以引进“ 与第& 次试验有关的事件”的概念，这种 
事件发生与否仅与第 / c 次试验的结果有关，即为了判断某一样本 
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点是否属于这个事件，只需察看它的第 A 个分量.例如在例8中, 
“第2次试验摸出红球”这一事件就是一个与第2次试验有关的 
事件.值得指出，必然事件及不可能事件0可以认为与所有的 
试验有关. 

现在若以记与第 A 次试验有关的事件全体，则可以通过 
下列方式定义试验的独立性. 

定义 2.2.4 若对于任意的 

A (l) e ^ lf A (2) e 為 ，•••，，） e 為 

均成立 

P ( A (1) A (2) - A (n) )= P ( A (1) ) P ( A (2) ) - P ( A (n) ) 

则称试验尽 ， 五 2 ， …，坎 是相互独立的 • 

注意到,2,… ， n , 因此由定义立刻推出，若 n 个试 
验相互独立，则其中的 m (2< m < n ) 个试验也是相互独立的. 

在例8中，若对样本空间/2中的6个样本点都给定概率 

则不难验证试验 A 与试验 A 是相互独立的.读者可以思考一下, 
是否还可以给定其他概率使试验仏与试验仏独立？ 

n 次有放回摸球所构成的〃个试验是相互独立的，而〃次不 
放回摸球模型则是〃个试验不独立的简单例子. 

特别重要的一类试验是所谓 重复独立试验 ，这时 A =A = 〜 
=认，有关事件的概率保持不变，而且各次试验是相互独立的.投 
n 次硬币或进行〃次有放回摸球是重复独立试验的简单例子.重 
复独立试验是作为“在同样条件下重复试验”的数学模型而出现 
的，它在概率论中很有地位，因为随机现象的统计规律性只有在大 
量重复试验中才会显示出来. 

我们在下一节将研究一类最简单的重复独立试验——伯努利 
( J . Bernoulli , 1654—1705) 试验. 
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§3. 伯努利试验与直线上的随机游动 

一、伯努利概型 

在许多问题中，我们对试验感兴趣的是试验中某事件4是否 
发生.例如在产品抽样检查中注意的是抽到废品，还是抽到好品； 
在掷硬币时注意的是出正面还是出 反面； 在股票市场中关心的是 
涨 还是跌.在这类问题中我们可以把事件域取为 A I 0, A , A , 
n\ ，并称出现 a 为“成功”，岀现3为“失败”.这种只有两个可能 
结 果的试验称为 伯努利试验. 

有些试验的结果不止两个，譬如，在电报传输中，既要传送字 
母>!，，•••， Z 等，又要传送其他符号.但是假如我们所关心的只是 
字母在传送中所占的百分比，而不再区别到底是哪一个字母，则我 
们可以把出现字母当作是成功，出现其他符号一律当作是失败，这 
时就可以把问题看作伯努利试验.同样地，显像管的寿命可以是不 
小于0的任一数值，但是有时根据需要，我们可以把寿命大于 
50 000小时的显像管当作合格品，其余都作为次品.那么，这类问 
题还是可以归结为伯努利试验.这种例子可以举出不少. 

在伯努利试验中，首先是要给出下面概率 

P ( A ) = p 9 P ( A)=g (2.3.1) 

显然 p 彡 0， g 彡0,且 p + q = l . 

现在考虑重复 进行〃 次独立的伯努利试验，这里的“重复”， 
是指在每次试验中事件>1,从而事件3出现的概率都保持不变.这 
种试验称为 /I 重伯努利试验 ，记作 

总之,〃重伯努利试验有下面四个约定： 

( i ) 每次试验至多岀现两个可能结果之一 M 或 

( ii ) 4在每次试验中出现的概率 p 保持 不变； 

( iii ) 各次试验相互 独立； 
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( iv ) 共进行〃次试验. 

下面先给出/ I 重伯努利试验的概率空间： 

/ I 重伯努利试验 F 的样本点形如 _• 

(义又，…，足） （2.3.2) 

其中疋是 岑或 1,分别表 示第〗 次试验中出现>1或3，显然这种样 
本点共有2^个，这是一个有限样本空间. 

像对所有有限样本空间一样，可以把样本点的任意子集作为 
事件，构成事件域，不过在这个场合一般不用明显写岀 .. 

为书写方便起见，在本节中将把样本点 （2. 3. 2) 简记为 

H •又，例如 ，（岑 ，4,…，人又）表示前 凡-1 次试验均出现事 
件>1而第 n 次试验出现事件3，简记为 

为了给定样本点 （2. 3. 2) 的概率，主要看其中4或3出现的 
次数，例如若其中有 Z 个 A 从而有 n - Z 个 I 则利用试验的独立性 
及 （2.3.1) 式，必有 

P (先毛 •• 又） = P (又) P (毛)… P (足） 

= p l q n ~ l (2.3.3) 

特殊地，/ = p n ~ l q . 

一般事件的概率由它所含样本点的概率求和得到.这样一来， 
我们已对〃重伯努利试验给定了概率空间. 

有时也需要考 虑可列重伯努利试验 的场合，这时样本点形 
如 


(^i 又，…又，…） （2.3.4) 

其中又仍取 岑或; ^，这时样本空间不再有限，甚至也不可列，事实 
上它可与 [0,1] 区间进行一一对应，对这种试验就不能把样本空 
间的任意子集都看作事件. 

伯努利试验是一种非常重要的概率模型，它是“在同样条件 
下进行重复试验”的一种数学模型，特别在讨论某事件岀现的频 
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率时常用这种模型.历史上，伯努利概型是概率论中最早研究的模 
型之一，也是得到最多研究的模型之一，在理论上具有重要意义, 
在我们这门课程中，一些较为深人的结果也是结合伯努利概型进 
行讨论的.另一方面，它有着广泛的实际应用，例如在工业产品质 
量 检查中，在当代遗传学中它都占有重要地位. 

我们将以伯努利试验为模型探讨机票超售问题.每个订座旅 
客当作一次试验，则他或到时不登机，记为1或到时登机，记为 
按过去统计资料取为5%.主要的难点在于能否把旅客是 
否登机看作是独立的，显然对于购买团体票的旅客作此假定是不 
适合的，此外，大型的交通堵塞等偶然事件也会使这个假定偏离, 
不过在一般场合作此假定还是合适的.全体订座旅客数〃作为试 
验总数，这便构成伯努利概型. 

二、伯努利概型中的一些分布 

下面我们计算伯努利概型中所岀现的一些事件的概率，这些 
概率非常重要. 

1. 伯努利分布 

若只进行一次伯努利试验，则或是事件4出现，或是事件2 
出现，其概率由 （2.3. 1) 给出，称 为伯努利分布 ，这是最简单的情 
况. 

2. 二项分布 

我们来确定〃重伯努利试验中事件4 岀现& 次的概率，这概 
率我们记之为 6 a ; n , p ). 

若以足记 n 重伯努利试验中事件>1正好出现 A 次这一事件， 
而以岑表示第；次试验中出现事件>1，以不表示第 i 次试验中岀现 
则 

— (2.3.5) 

右 边的每一项表示在某 A 次试验中岀现事件>1,在另外次试 
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验中岀现这种项共有个，而且两两互不相容.由 （2. 3. 3) 可 

知 （2. 3. 5) 中右边各项所对应事件的概率均为利用概率的 
可加性得 

即 

b ( k ； n 9 p)=^j p k q nk 9 A : = 0,1,2 , i (2.3.6) 

注意到 b ( k ; n ， p)，k = Q ， l ，2 ， … , 是二项式 （ g +/ w ) n 展开式 
中项的系数，因此 （2. 3. 6) 称为二 项分布 （binomial distribution ). 
特别地 

X b ( h n ， P )= Z (?) p k 9 n ' k = (9^ p) n = ^ (2.3.7) 

k = 0 k = 0 \ 

[例 1 ] 若在 / V 件产品中有 A / 件废品，现进行 n 次有放回的 
抽样检查，问共 抽得& 件废品的概率是多少？ 

[解]由于抽样是有放回的，因此这是〃重伯努利试验，若 
以4记各次试验中出现废品这一事件，则 


因此所求的概率为 




这概率在第一章§3中曾出现过. 

> [例 2] 在群体遗传学中，假定可遗传的指标是依赖于基因 
的.基因总是成对出现并且具有两种形式>1及 a 中的一种.假定每 


一 代具有 27 V 个基因，则其中 A 所占的比例数^称为基因频率.基 


因频率的变化过程与群体的进化情况有着密切的关系. 

如果进行的是随机交配，也就是说任何个体有同样的机会和 
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任何其他个体配种，则遗传学中对基因的遗传作下面 假定: 子代个 
体是按伯努利概型从上一代每个亲体中取得基因的. 

因此若上一代的基因频率为&，则下一代的基因频率 为&的 

概率由二项分布给岀 



在这个例子中基因频率5相当于伯努利试验中出现成功的 

概率 />. 

3. 几何分布 

现在讨论在伯努利试验中首次成功岀现在第 A 次试验的概 
率，要使首次成功出现 在第& 次试验，必须而且只需在前 H 次试 
验中都岀现事件3,而第 &次试 验出现因此这事件（记为％)可 
表示为 

W k = A x A 2 - A k _ x A k (2.3.8) 

利用试验的独立性，其概率为 

记 

g ( k ； p ) = q k ~ l p , k = l ，2，”. (2.3.9) 

是几何级数的一般项，因此 （2. 3. 9) 称为几 何分布 .这里有 
00 00 

X X l P = Pl ~~ =1 (2.3.10) 

kti kt\ 1-9 

几何分布给出了等待事件 >1 出现共试验 了&次 的概率，这类 
概率在许多问题中出现，我们在第一章§3中曾遇到它.下面是一 
个模型化了的例子. 

[例 3] —个人要开门，他共有 n 把钥匙，其中仅有一把是能 
开这门的.他随机地选取一把钥匙开门，即在每次试开时每一把钥 

匙都以概率1被使用，这人在第 s 次试开时才首次成功的概率是 
n 
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多少？ 

[解]这是一个伯努利试验, P = l , 由 （2. 3. 9)，所求概率为 

n 



应当指出，讨论事件>1的首次岀现事实上牵涉到可列次伯努 
利试验，因此它的样本空间应取为 （2. 3. 4) 所表示的样本点全体. 
这个空间不是可列的，所以不能把它的一切子集都作为事件.在上 
述讨论中，我们只是把用 （2. 3. 8) 表出的％作为事件，并以 
(2. 3. 9) 给出其概率，这里的事实上也包含了不可列个用 
(2. 3. 4) 表出的样本点.当然在讨论这个问题时，我们也可以干脆 
把 化作为 样本点，这时样本空间取为 I %，％，％，•••！，并以 
(2.3. 9) 给出其概率，这就成了一个离散样本空间. 

. 下面讨论的是更复杂一点的情况，即帕斯卡分布，它可以看作 
几何分布的一种推广. 

4. 帕斯卡分布 

考虑伯努利试验，让我们考察要多长时间才会出现第 r 次成 
功. 

若第 r 次成功发生在第 （ 次试验，则必然有 
让我们以 Q 表示第 r 次成功发生在 第&次 试验这一事件，并 
以 /( hr , p ) 记其概率, Q 发生当且仅当前面的 A -1 次试验中有 r -1 
次成功 A - r 次失败，而第纟次试验的结果为成功，这两个事件的 

概率分别为广与 P ， 于是利用试验的独立性，得到 
⑽ = ㈡ 以'疒 

即 

f(^ ； r 9 p)= | ^ ^ j pq k ' r , /c = r , r+l ,… (2.3. 11) 
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注意到 


z f( k ; r ， p)= Y i 




=X ( z ) ( _1 ) y^ Z =p r (l-^)" r =l (2.3. 12) 

这里利用了推广的二项系数公式 （1.3. 7) 和牛顿二项式. 

/( hr ，/)) 称为帕斯卡分布.特别当 r = l 时，我们得到几何分 
布. 


帕斯卡分布与著名的分赌 注问题 有关.这个问题来源甚古，但 
直到德 • 梅尔向帕斯卡提出并导致帕斯卡与费马的通信,后又引 
起惠更斯 （ Huygens ,1629— 1695) 的兴趣，才由他们三人分别给出 
正确答案.帕斯卡和费马在解题中归结到取胜的概率，而惠更斯则 
引入数学期望的概念.可以说这宣告了概率论这一学科的诞生. 

分赌注问题大意如 下：甲 、乙两个赌徒按某种方式下注赌博， 
说定先胜£局者将赢得全部赌注，但进行到甲胜 r 局，乙胜 s 局 （ r < 
时，因故不得不中止，试问如何分配这些赌注才公平合理？ 

有人建议用已胜局数作比例分配赌注，即以 r : s 来分配，但 
这种分法显然没有考虑到最终取胜的概率.若以 n = t-rRm = t-s 
分别记甲及乙为达到最后胜利所须再胜的局数，又设甲在每局中 
取胜的概率为 p ， 我们便可以把分赌注问题归结为如下概率 问题: 
在伯努利试验中，求在岀现 m 次: i 之前岀现 n 次>1的概率. 

若以记上述概率，则它为甲最终取胜的概率，那么赌注以 
分配是公平合理的.帕斯卡和费马都在某种程度上达到 

这个结果. 

现在，若利用帕斯卡分布，则容易写出答案 

Zl ! / n +/ c - l \ , 

= S ( k 卜 V (2.3.13) 
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或 

* / m-¥k— 1 \ , 

= X ( k 卜 V (2.3.14) 

另外，容易证明，再赌1局一定可以决定胜负.因此甲为 
取得最终胜利只须而且必须在后继的 n + m -1 局中至少胜 n 局•这 
样，利用二项分布可以知道， 

n ^ _1 / n + m - l \ , + ,, 

= S k \ p k q n+m - l - k (2.3.15) 

可以证明上述三个答案是一致的（习题 29). 

下面是与帕斯卡分布有关的另一个有名例子. 

[例 4] (巴拿赫火柴盒问题）数学家的左、右衣袋中各放有 
一盒装有#根火柴的火柴盒，每次抽烟时任取一盒用一根，求发 
现一盒用光时，另一盒有 r 根的概率. 

[解]看作/> = ^■的伯努利试验.要左边空而右边剩 r 根，应 

该是左边摸过次（前/ V 次用去#根火柴，最后一次发觉火柴 
盒是空的），而右边摸过次，这事件的概率为 
/ 1 v (2 N - r \( 

n )( y ) 

对于右边先空的情况可同样考虑，因此所求的概率为 
u r = 2 ./(2/ V - r + l ;/ V + l ， 士) =( 2 : _ ]2_ 2 〜 

三、直线上的随机游动 


考虑％轴上的一个质点，假定它只能位于整数点，在时刻《=0 
时，它处于初始位置 a ( a 是整数），以后每隔单位时间，它总受到 
一个外力的随机作用，使位置发生变化，分别以概率 P 及概率9 = 
1- P 向正的或负的方向移动一个单位，我们所关心的是质点在时 
刻《 = 〃时的位置.用这种方式描述的质点运动称 为随机游动. 
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若质点可以在整个数轴的整数点上游动，则称这种随机游动 
为无限制随机游动. 若在某点 d 设有一个吸收壁，质点一到达这点 
即被吸收而不再游动，因而整个游动也就结束了，这种随机游动称 
为在 d 点有吸收壁的随机游动. 此外还可以考虑带有反射壁及弹 
性壁的随机游动.在一个随机游动中还可以具有不止一个壁. 

当 P = = ^ ■时，随机游动称为 对称的 ，这时质点向左或向右移 
动的可能性相等. 

自然科学中的大量问题归结为随机游动问题，例如随机游动 
模型可以作为布朗运动的初步近似.股票价格涨落和汇率变化是 
否具有随机游动特征，更是现代金融界最充满火药味的论争之一. 
概率论中的一些古典问题也引导到随机游动问题，事实上，随机游 
动可以看作是伯努利试验的一种描述法. 

关于随机游动，已进行过许多研究，我们只介绍它的两个最简 
单的模型. 

无限制随机游动 假定质点在时刻0从原点出发，以记它 
在时刻《 = 时的位置.为了使质点在时刻 《 = n 时位于也可以 
是负整数），必须而且只须在前〃次游动中向右游动的次数比向 
左游动的次 数多& 次，若以％记它在前/ I 次游动中向右游动的次 
数， y 记向左移动的次数，则 

{ x+y = n 
x-y = k 

即 pf ， 因为 x 是整数，所以&必须与 n 具有相同的奇偶性. 

事件发生相当于要求在前〃次游动中有 f 次向右， 
¥次向左，利用二项分布即得 
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n_k n^k 

P \ S n =k \ = n+k q ~ p ~ 

[~) 

当 fc 与 n 奇偶性相反时，概率为 0. 

两端带有吸收壁的随机游动 假定质点在时刻《 = 0时，位于 
x = a ，而在 x = 0 及 x = a + b 处各有一个吸收壁，我们来求质点在％ = 
0被吸收或在 x = 被吸收的概率.用的是差分方程法. 

若以^记质点的初始位置为/ I 而最终在 a + 6 点被吸收的概 
率.显然 

分0=0， ^ a + 6 = 1 (2.3.16) 

如果某时刻质点位于％ = 这里1 ^ n ^ a + b -1 ，则它要被 x = 
a + P 及收，有两种方式来 实现： 一种是接下去一次移动是向右的而 
最终被 x = a + b 吸收; 另一种是接下去一次移动是向左的而最终被 
x = a + b 吸收.所以按全概率公式有 

m 增 "-1 ， n=l ，2,… 9 a + b-l (2.3. 17) 

这样，我们得到了关于^的一个二阶差分方程 （2. 3. 17) ,再 
用边界条件 （2. 3. 16) 就可以求解.利用这个差分方程系数的特殊 
性，比较方便的解法是把 （2. 3. 17) 改写成 

P ( H n )=9(1 - q n -\) ， n = 1，2，… ， a +6 -l 

若记 c n = q n + l - q n = ^ ■，则又能写成 

c n = rc n _" n = l ，2, …， a +6 -1 
下面分两种情况 求解： 

( i ) r = l , 即/ > = g = ^ ■，也即对称随机游动的场合.这时 c „ = 
L ，因此，若记 

h u 一 q n -i = … = ( h - ( io= d 


则 
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q n = q 0 +nd 



由于，故有 


特别地 


q n 


n 


a+b 


a 

a+b 


(2.3. 18) 


( ii ) r # l , 即 p ^ q 的场合. 


这时 

从而 


: rc „ 


c o 


n-l n-l V* A 

n= v (n)= ^ = Z r c o 


~ c o 


由于 qo = hb = 1 ，故有 


因此 


~ c o 


q n 


l - r a+ 


特别地 


9a 


Hf) 


l 


(2.3. 19) 


1- 


P 


若以；>„记质点自 71 出发而在 0 点被吸收的概率，同样可以列 
出差分方程 

， Pn=PP n+ ， qPn-\ ， n=\ y 2 y — ,a+b-\ 

及边界条件 

Po = 1 ， Pa,b = 0 

类似地可以求得，当; >=^= f 时 
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(2 . 3 . 20 ) 

而在 p / g 的场合 

, v b , 、 a • K a+b 

K= ^SiLiiL ( ,, 21) 
1_ (f) 1_ (f) 

不管在什么场合，都有 

Pa^a = l 

也就是说随机游动的质点最终一定要被两个端点之一所吸收. 

注意， （2. 3. 18) 及 （2. 3. 20) 也可以通过 （2. 3. 19) 及 
(2.3.21) ，令 ” q 用洛必达法则得到. 

顺便指出，两端有吸收壁的随机游动与概率论发展史上有名 
的赌徒输光问题有密切联系.这个问题是这样叙述 的：甲 、乙进行 
赌博，其赌本分别为^及6,若每局赌注为1,而甲、乙在每局中赢 
的概率分别为^及^，试求乙（或甲）把赌本输光的概率. 

这个问题最初由惠更斯对公平博弈即 p = g ■的情况作了讨 

论，后由伯努利推广到一般场合. 

四、推广的伯努利试验与多项分布 


二项分布可以容易地推广到\次重复独立试验且每次试验可 
能有若干个结果的情形.把每次试 k 的可能结果记 为义， 4,…， 
而 = = 1 , 2 , … ，7 ■，且 

Pi + P 2 + … +P r = 1 ， A 彡 0 (2.3.22) 

当 r = 2 时，我们得到伯努利试验. 

在这种推广的伯努利试验中，不难导出，在〃次试验中 岑出 
现 h 次，4岀现卜次，……次出现乂次的概率为 


_ n \ 

k x \ k 2 \ 


•U 


PVP2-P7 


(2.3.23) 
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这里卜多0,且 h 十匕+…+卜 = n . 

公式 （2. 3. 23) 称为多项分布，因为它是 （ p , + P 2 + — + PJ 的展 
开式的一般项，而且由 （2. 3. 22) 知 


灸 1 + 灸2 + ••• + ^ r = n 


n\ 


P?p k 2 2 —p K r r=l 


ki\ k 2 \ … 乂 ! 


(2.3.24) 


显然多项分布是二项分布的推广.二项分布中的许多结果都 
能平行地推广到多项分布的场合，以后我们只详细讨论二项分布 
的有关问题. 

在产品检查中，若对产品质量所用的标准不只是好品与废品， 
而是分得更细，例如有一等品，二等品，三等品，等外品四类，则从 
中取出〃件，求一等品有卜件，二等品有& 2 件，三等品有& 3 件，等 
外品有&件的概率时便得到多项分布. 

[例 5] 人类的血型分为 0, A ， B ， AB 四型，假定某地区的居 
民中这四种血型的人的百分比分别为 0.4,0. 3,0. 25,0. 05,若从 
此地区居民中随机地选出5人，求有两个为0型，其他三个分别 
是 A , B , AB 型的概率. 

[解]推广的伯努利试验可以用于这个场合，所求的概率为 


P = ———x0. 4 2 x0. 3x0. 25x0. 05=0. 036 
2 ! 1 ! 1 ! 1 ! 

也可以研究平面上或空间的随机游动，下面是简单的一例. 
[例 6] (平面上随机游动）一质点从平面上某点出发，等可 
能地向上，下，左，右方向移动，每次移动的距离为1，求经过次 
移动后回到出发点的概率. 

[解]这可以归结为上述推广的伯努利试验的问题，分别以 
事件4表示质点向上，下，左，右移动一格，则 

Pi =Pi = P 3 = P 4 =^ •-若要在 2 n 次移动后回到原来的出发点，则向 


左移动的次数与向右移动的次数应该相等，向上移动的次数与向 
下移动的次数也应该相等.而总移动次数为 2 n , 因此所求概率为 
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p 


sr (2u) ! / 1 \ n 

^ n (k\) 2 (m\) 2 U) 

■y _ (2n) !_ / 1 

fc = o (A：! ) 2 [ (n - A:) ! ] 2 v 4 


z 


±\ 2 n ( 2 n )\ 

4 / ( 汀 ! ) 2 f 

DTltC ； 


n\ 


M (n-k) !. 


丄 

T 


r 2 m 




最后一个等式用到 （1.3.6). 


§4. 二项分布与泊松分布 


一、 二项分布的性质及计算 

1. 二项分布的计算 

在上一节中我们导岀了在/ I 次伯努利试验中正好 出现& 次成 
功的概率 6 U ; n ， P ): 

b(k ； n 9 p) = p k q n ~ k y k = 0,1 ,2,-*- (2.4. 1) 

其中9=1-/}. 

^ = 0,1,2, …， fi 称为二项分布，在概率论中占有很 
重要的地位.由于在许多实际问题中出现二项分布，并且要计算其 
数值，因此讨论二项分布的计算显得非常重要. 

二项分布有现成的表可查，这种表对不同的〃及 P 给出了 
b(k;n f p) 的数值. 

为了增加对二项分布的感性认识及计算的需要，我们选取了 
下列二项分布数值表. 

表 2.4. 1 中给出了对于 ； i = 20 及 a =0. 1 , p 2 =0. 3, p 3 =0. 5的 
二项分布数值表. 
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二项分布表只对 P <0. 5 给出，因为 对于/ »0. 5 的概率不难经 
下式计算 得到： 


b ( k ； n 9 p ) = b(n - k ； n 9 l - p) (2.4.2) 

当/ »0.5 时 ,1- P <0.5, 仍能利用分布数值表. 

表 2 . 4.1 二项分布数值表 


B 

b(k;2Q， P ) 

k 

b(k；20 tP ) 

Pi = 0 - 1 

p 2 = 0. 3 

=0. 5 

1 

p 2 =0. 3 

p 3 =0. 5 


0. 121 6 

0. 000 8 

一 

11 



0. 160 2 

■ 

0. 270 2 

0. 006 8 

— 

12 


■ 

0. 120 1 


0. 285 2 

0. 027 8 

0. 000 2 

13 



0. 073 9 

■ 


0. 071 6 

0.001 1 

14 


■ 

0. 037 0 

4 

0. 089 8 

0. 130 4 

0. 004 6 

15 



0.014 8 

5 

0.031 9 

0. 178 9 

0.014 8 

16 



0. 004 6 

6 

0.008 9 

0. 191 6 

0. 037 0 

17 



0. 001 1 

7 

0. 002 0 

0. 164 3 

0. 073 9 

18 



0. 000 2 

8 

0. 000 4 

0. 114 4 

0. 120 1 

19 


■ 

— 

9 

0. 000 1 

0. 065 4 

0. 160 2 

20 



一 

10 


0. 030 8 

0. 176 2 


H 

■ 



为了对二项分布的变化情况有个直观了解，我们把表 2. 4. 1 
中的几个分布用图 2.4.1 表示出来. 

从图中可以看出，对于固定的 n 及/>， 当&增 加时， 

先随之增加并达到某极大值，以后又下降.此外，当概率 P 越与 f 

接近时，分布越接近对称. 

[例 1] 一大批电子管中有10%已损坏，若我们从这批电子 
管中随机地选取20个来组成一个线路，问这线路能正常工作（即 
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图 2. 4.1 二项分布图 

所选的20个电子管全部是好的）的概率是多少？ 

[解]因为这批电子管数量很大，因此可近似地把选取20 
个管作为进行独立试验.若把选到一个好电子管作为成功，其概率 
为 0.9, 则这是一个伯努利概型问题，所求的概率为 

6(20；20,0.9) = ( 2 °\ 0. 9 20 = 0. 9 20 
\ 20 / 

这个数值可以利用对数表计算，但更方便的是利用表 2.4. 1 
计算，由 （2. 4.2), 

6(20；20,0.9) = 6(0；20,0.1) 

利用表 2. 4. 1知所求的概率为 0. 121 6. 

[例 2] (血清的试验）设在家畜中感染某种疾病的概率是 
30%，新发现了一种血清可能对预防此病有效，为此对20只健康 
的动物注射这种血清.若注射后只有一只动物受感染，我们应对此 
种血清的作用作何评价？ 

假如血清毫无价值，那么注射后的动物受感染的概率还是 
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30%，则这 20 只动物 中有& 只受感染的概率为 6( A ;20,0.3). 

发生只有一只动物受感染或更好的情况（无动物受感染）的 
概率为 

6(0；20,0.3) + 6(1；20,0.3) = 0.000 8 + 0.006 8 = 0.007 6 
这个概率如此之小，因此我们不能认为血清毫无价值. 

如果注射后的20只动物中有4只受感染，我们是否相信此种 
血清有效？这个问题留给读者思考. 

这里的做法是 :先依 照我们关心的问题提出一个假设,然后用 
实验得出的数据，利用概率论方法，计算某个事件在假设成立下的 
概率，最后根据这概率的大小来决定是接受还是拒绝原来的假设， 
这是数理统计中有名 的统计假设检验法. 

2. 二项分布的性质 

我们来考察 Khtp ) 随 &及〃 变化的情况.从图 2. 4. 1可以 
看岀，当 n 固定时 ，6 a ;〃, P ) 先随 A 增加而增大，达到某一极大值 
后又逐渐下降.现在对它进行严格讨论. 

由于对 0< p < l , 

b ( k ; n ， p ) _ (n - k + l ) p ^ (n + l)p - k 

b(k - l ； n 9 p ) kq kq 

因此 

当灸<(^1+1)0时，6(灸;打，户）>6(左-1;打，户） 

当 k : ( n + l)p 时， b ( k ; n ， p )= b ( k-l ; n ， p ) 

当 k >( n + l)p 时， 6( <6( A ：-1 ; 打， p ) 

因为 （〃+ l ) P 不一定是整数，而二项分布 中的& 只取整数值， 
所以存在整数…使得 U + i ) P - i < m < U + i ) P , 而且当&从0变到 
n 时 ,6 U ; n ， p ) 起先单调上升，当 A = m 时达到极大值，后来又单调 
下降.但若 （ n +1 )p = 肌，则这时 6( w ; n , p )= 6( m-l ; n ， p ) 同时达到 
极大值. 

使取最大值的项 6( m ; n ， p ) 称为的中心 
项 ，而 m 称为最可 能成功次数. 由上面讨论知 m = [ ( n + l ) p ] (即 m 
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是 （〃+ l ) p 的整数部分）.若 U + 1) P 是整数，则 rn - l 亦为最可能 
成功次数. 

[例 3] 设某种疾病的发病率为 0. 01，问在500人的社区中 
进行普查最可能的发病人数是多少？并求其相应的概率. 

[解]这是伯努利概型，发病人数服从二项分布. n = 500 9 p = 
0. 01 ，（ n + l) P = 5. 01,[( n + l ) p ]=5. 所以最可能发病人数为5.相 
应概率为 

6(5 ； 500,0.01) = | 5 ^°j (0.01) 5 • (0.99) 495 = 0. 176 35 

(2.4.3) 

应该注意，若 0< P <1, 则当; i 值相当大时，即便是最可能成功 
次数 m 发生的概率也相当小，对于其他的 I 则自然更 
小了，以后将会看到最可能成功次数 m 发生的概率接近于 

丄 

(2impq) ~ T 

(当 n 相当大时），因此当 oo 时，这概率趋于 0. 

3. 产品抽样验收与方案 

由于生产过程总有种种无法完全控制的因素，因此工艺规范 
也允许加工的尺寸有一定的公差，或允许产品中含有少量废品，这 
事实上是承认生产过程的随机性. 

在产品质量管理中，全面检验一般是不可能的，因此采用抽样 
检查的办法. 

抽样检验若用于生产过程中，则成为在线生产过程质量管理 
的一部分，此外就是用于产品的验收. 

如果每个产品要么是好品要么是废品，那么这时关心的是废 
品数或废品率，这是计数抽样验收中最简单的情况. 

对质量的要求大体上可以归结为 ：存在 仏及仏满足 0 < P() < Pl 
<1,当废品率 p < p 。 时，接收这批 产品； 而当，拒绝这批 
产品. 

最简单也是最基本的验收方案是:抽〃件产品进行检验，当废 
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品数 < C 时，接收该批 产品； 否则拒绝. 

这个方案称为（〃，幻 方案. 

由于抽样的随机性,任何验收方案都可能犯两类 错误: 其一, 
拒收一批合 格品； 其二，接收一批不合格品.前者为生产者 风险; 后 
者为消费者风险.当然希望减小这两类风险，即降低犯两类错误的 
概率. 这也为比较两种不同验收方案的优劣提供了客观的标准. 

为刻画验收方案的性能，一般引进 L ( p ) ，它表示当废品率为 
P 时,接收该批产品的概率•若以 P 为横坐标 4( P ) 为纵坐标作图， 
则所得的曲线称为 抽检特性曲线 （ operating characteristic curve ) , 
简称 0 C 曲线 （见图 2.4.2). 



对（〃 〆 ）方案而言，若抽样是放回的，则利用二项分布容易得 
到 

l(p) = P k (i - P y- k 

A: = 0 \ JcJ 

因此，问题归结为找 n 及使得 

L ( p ) 多 1 一 a ， 当 p < p 。 时 

L ( p ) ^ 当 p > h 时 

这里是两个不大的正数,按需要给定. 

理想的验收方案要求 = 这是无法实现的，但可作为比 
较的基准. 


(2.4.4) 

(2.4.5) 
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4. 应用实例 

我们举一些应用的例子，说明二项分布的重要性，同时也提岀 
一些问题. 

[例 4] (人寿保险）保险业是最早使用概率论的部门之一 • 
保险公司为了决定保险金数额，估算公司的利润和破产的风险，需 
要计算各种各样的概率.下面是典型问题之一.根据生命表知道， 
某年龄段保险者里，一年中每个人死亡的概率为 0. 005,现有 
10 000个这类人参加人寿保险，试求在未来一年中在这些保险者 
里面， （1) 有40个人死亡的 概率； （2) 死亡人数不超过70个的 
概率. 

[解]作为初步近似，可以利用伯努利概型，〃 =10 000, 
P = 0. 005,设为未来一年中这些人里面死亡的人数，则所求的概 
率分别为 


(1) 6(40; 10 000,0.005) 

= ( 10 40°°) ( 0 . 005 ) 4 。( 0 . 995 ) 996 。 (2.4.6) 

70 

(2) P\fi ^ 70( =冗6(灸 ； 10 000,0. 005) 

(0. 005 ) "(0.995) 10 ° 00 -" 


10 000 ) 
k J 


70 


(2.4.7) 

直接计算这些数值相当困难，要有更好的计算方法. 

[例 5] (机票超售）某航线历史资料表明 ：订座 旅客有5% 
不来登机，问一架200座飞机应出售多少座位？ 

[解]前已讲明可以利用伯努利概型.鉴于该问题实际牵涉 
面甚广，要考虑各方利弊，因此模型应有一定适应性.假定超售 m 
个座位，则共售出 200+ m 个座位，这时要求登机的旅客数 m 服从 
二项分布 6(^；200+ m ,0.95) ，我们所关心的是发生拒登机的概率 


P = P \ fi > 200 \= ^ 6( A :；200+ m ,0.95) 

A >200 


• 100 • 



较妥当的处理办 法是: 对各种适当的 m , 算出 P , 供主管部门最后 
决策时作参考. 

[例 6] (车间用电）某车间有200台车床，由于经常需要检 
修、测量、调换刀具、变换位置等种种原因，每台只有60%的时间 
在开动用电，若每台开动时耗电1千瓦，问应供给这个车间多少电 
力才能保证正常生产？ ’ 

[解]若假定各台车床的工作是独立的，则能利用伯努利概 
型，此时 n = 200 y p = 60% ，问题转化为找到某个 r , 使“开动着的车 
床数这一事件有足够大的概率发生，例如 

r 

^ b ( k ；200 f 0.6) ^0. 999 (2.4.8) 

k = 0 

这里的概率 0.999 是举例性的，它相当于8小时工作中有半分钟 
会超负荷，大小可选，方法不变. 

[例 7] (分子运动）甲、乙两容器，容量各为1升，每个各含 
2. 7 xlO 22 个气体分子，现将两容器接触，经过相当长的时间后 

(即这时每个分子落在两容器中的概率各为，求两容器中分子 

数之差超过分子总数的100亿分之一的概率. 

[解]两容器中分子总数为 5 .4xl0 22 , 其一百亿分之一（即 
为 5.4xl0 12 , 设混和后甲容器的分子数为则乙容器的分 
子数为 5. 4xl0 22 - M , 现要求事件 

i /I - (5.4 x 10 22 一 〆 ） I > 5.4 x 10 12 

即事件 

I ^ - 2. 7 x 10 22 I > 2. 7 x 10 12 

的概率，由二项分布 

P \ \ - 2.1 x 10 22 I > 2.7 x 10 12 | 

= ^ 十;5.4 X 10 22 ,y) (2.4.9) 

上式和号对一切满足 A -2. 7 xl 0 22 1 >2. 7 xl 0 12 的&求和，这概率是 
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无法直接计算的. 

从上面几个例子中可以看到，计算二项分布的数值时，由于试 
验次数〃经常很大，因此实际计算及 Zb ( k ; n ， p ) 都很 

k 

困难，有时甚至不可能.例如 （2.4.9) 中须算的项数有 5.4 xl 0 12 之 
多，逐项计算是不可能的. 

在这种情况下，寻找更有效的计算法是必要的，即便是近似公 
式也好.这可以利用概率论中的极限定理来实现，关于极限定理的 
讨论将在第五章进行. 

二、二项分布的泊松逼近 

在很多应用问题中，我们常常遇到这样的伯努利试验，其中， 
相对地说， n 大， p 小，而乘积 \= np 大小适中.对这种情况，泊松 
( Poi SSO n ，1781—1840) 找到了一个便于使用的近似公式，下面我 
们来推导它. 

定理 2.4.1( 泊松） 在独立试验中，以 ；>„代 表事件 4 在试验 
中出现的概率，它与试验总数〃有关，如果 n Pn 一人 ，则当 OC 时， 

b<Mn ， p n ) - 

[证明]记 = 则 

p k n (l - p n Y' k 

二 n(n - l)-u - A ： + l )| A.j 

由于对固定 的&有 

limA* = A* , lim( 1 - = e~ A 

n —►od n—^ao y yi I 

及 
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因此 


lnn6(A: ； n,p n ) = ^-e" A 

定理证毕. 

p ( k ；\)=^- e -\ i =0, l ,2,... (2.4.10) 

称为泊 松分布 （Poisson distribution ) , A 称为它的参数. 

特别地 

^ p ( k ；\) = ^ TT~ e A = e" A • e A = 1 (2.4.11) 

k = 0 “o 允！ 

泊松分布是概率论中很重要的一种分布. 

在应用中，当 P 相当小（一般当 P <0. 1) 时，我们用下面近似 

公式 

b ( k ; n ， p ) « ^- e - np (2.4.12) 

«! 

例如在例3中，我们要计算6(5;500,0.01)，这时 〃 = 500,相 
当大，而 P = 0.01 相当小，但叩= 5,正好适中，所以很适合用泊松 
逼近，查表得到/>(5；5)= 0. 175 467,与精确值 0. 176 35十分 
接近. 

[例 8] 假如生三胞胎的概率为10_ 4 ,求在100 000次生育 
中，有0,1，2次生三胞胎的概率. 

[解]这可以看作伯努利试验0=100 000，/> = ()• 000 1,所求 
的概率直接计算为 

6(0 ； 100 000, 0.000 1)=0.000 045 378 
6(1 ； 100 000, 0.000 1)=0. 000 453 82 
6(2 ； 100 000, 0.000 1)=0.002 269 3 
这时也可用泊松逼近， A = ;ip = 10,而 
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p (0； 10)=0.000 045 
p ( l ; 10) = 0.000 454 
p (2； 10)=0.002 270 
可见近似程度很令人满意. 

图 2.4.3 给出了泊松分布逼近二项分布的一个图示，吻合程 
度甚好. 



图 2. 4. 3二项分布与泊松分布 


三、泊松分布 


在历史上泊松分布是作为二项分布的近似，于1837年由法国 
数学家泊松引人的.近数十年来，泊松分布日益显示其重要性，成 
了概率论中最重要的几个分布之一.其原因主要是下面两点. 

首先是已经发现许多随机现象服从泊松分布.这种情况特别 
集中在两个领域中.一是社会生活，对服务的各种要求，诸如电话 
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交换台中来到的呼叫数，网站访问数，公共汽车站来到的乘客数等 
等都近似地服从泊松分布，因此在运筹学及管理科学中泊松分布 
占有很突出的 地位; 另一领域是物理科学，放射性分裂落到某区域 
的质点数,热电子的发射，显微镜下落在某区域中的血球或微生物 
的数目等等都服从泊松分布. 

其次，对泊松分布的深人研究（特别是通过对泊松过程的研 
究）已发现它具有许多特殊的性质和作用，打个不很恰当的譬喻, 
似乎泊松分布是构造随机现象的“基本粒子”之一. 

图 2.4.4 是对于不同 A 值的泊松分布图.为了计算泊松分布 
的数值，有许多专门的表格可供查用.本书附录一中也附有这样的 
表.例8的数值可从该表查到. 



下面提供两个有关的统计资料作为例子. 

[例 9] 对上海市某公共汽车站的客流进行调查，统计了某 
天上午10:30至11:47左右每隔20秒钟来到的乘客批数（每批可 
能有数人同时来到），共得230个记录，分别计算了来到0批，1 
批，2批,3批，4批及4批以上乘客的时间区间的频数，结果列于 
表 2. 4. 2中，其相应的频率与 A =0. 87的泊松分布符合得 很好. 
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表 2.4.2 公共汽车客流统计 


来到批数 f 



B 

■ 

■ 




■ 

34 

■ 

D 


频率乂 =1 
n 

0. 43 

m 

0. 15 

0.04 

m 



0.42 

■ 

DB 

m 

0.01 



[例 10] 放射性物质放射出的 a 质点数是服从泊松分布的 
有名例子.1910年 Rutherford 等人的著名实验揭露了这个事实. 

在这个实验中，观察了长为 7.5 秒的时间间隔里到达某指定 
区域的质点数，共观察了 N = 2 608次，表 2. 4.3 给岀观察值与理 
论值的对照 ，义表 示在#次观察中发生“在 7. 5秒内落到指定区 
域的质点数为的观察次数，理论值是 N P ( k ;3. 870) ,理论值与 
实验值很近似. 


表 2. 4. 3 Rutherford 实验理论值与实验值对照表① 


k 


Np ( k ；3. S 10) 

0 

57 

54. 399 

1 

203 

210.523 

2 

383 

407.361 

3 

525 

525.496 

4 

532 

508.418 

5 

408 

393.515 

6 

273 

253.817 

7 

139 

140. 325 

8 

45 

67.882 

9 

27 

29.189 

k ^\0 

16 

17. 075 

总计 

2 608 

2 608. 000 


①引自费勒.概率论及其应用，离散空间（上册）.科学出版社.1964,第155页. 
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在说明了泊松分布的常见性之后，我们转人介绍产生泊松分 
布的机制.经过研究，已经弄清了服从泊松分布的条件.为了便于 
理解，我们将结合电话呼叫流来叙述这个重要结果. 

我们先证明一个以后屡次要用到的数学分析结论. 

引理 2.4.1( 柯西） 若 /( x ) 是连续函数（或单调函数），且对 
一切戈, 〆 或一切成立 

/(^)/( r )=/(^+ j ) (2.4.13) 

则 

f(x)=a x (2.4.14) 

其中 a >0, 是某一常数 • 

[证明]由 （2. 4. 13) 知对任意 x , 

/( ， )=[/(f)] 2 ^o 

因此 /( 幻非负.反复使用 （2. 4. 13) ，对任意正整数〃及实数 X 有 

f(nx)= [f(x)] n 

在上式中取 P •^得 
n 

记“/(1)多0,则 

f (i) =ai 

因此,对任意正整数 m 及〃，成立 

’(f) = [’( 士 )1 =flf 

这样，我们已证得 （2. 4. 14) 对一切有理数成立，再利用连续 
性或单调性可以证明对无理数也成立，从而证明了引理. 

[泊松过程]考虑来到某交换装置的电话呼叫数，假定它具 
有下面三个 性质： 

( i ) 平稳性 在中来到的呼叫数只与时间间隔长度 
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I 有关而与时间起点 ~ 无关.若以匕（0记在长度为《的时间区间 

中来到 A 个呼叫的概率，当然 

00 

X ^(0=1 (2.4.15) 

Jt = 0 

对任何《>0成立. 

过程的平稳性表示了它的概率规律不随时间的推移而改变. 

( ii ) 独立增置性（无后效性） 在[~，《。+0内来到&个呼叫 
这一事件与时刻~以前发生的事件独立.换言之，在对时刻以前 
的事件发生情况所作的任何假定之下，计算出来的在[心，~+0内 
发生 A 个呼叫的条件概率都等于同一事件的无条件概率.独立增 
量性表明在互不相交的时间区间内过程进行的相互独立性. 

( iii ) 普通性 在充分小的时间间隔中，最多来到一个呼叫. 


即，若记 

00 

必⑴ = X P k( l )= i -^ oCO-^iCO 

A = 2 

(2.4.16) 

应有必 (0 = 

= 0⑴，即 



hm^Ko 

t-*0 t 

(2.4.17) 


普通性表明，在同一时间瞬间来两个或两个以上呼叫实际上 
是不可能的. 

下面我们求 

对 “>0,考虑 [0 中来到&个呼叫的概率，由 
独立增量性及全概率公式 

+P 0 (O^(AO,^^0 (2.4.18) 

(对 假定 P _ n (0=0.) 

特别地 

P 0 (t-^M) = P 0 (t)P 0 (M) (2.4.19) 

P c ( t ) 表示在长度为 〖的时 间间隔中没有来呼叫的概率，因此它关 
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于 t 单调下降，由引理 2. 4.1 知 

尸0⑴ ' 

其中若 a =0, 则 P 0 (0 =0,这说明在不管怎么短的时间间隔 
内都要来呼叫，因此在有限时间间隔中要来无穷多个呼叫，这种情 
形不在我们的考虑之列.此外，因 P Q (0 是概率，故应有 a < l , 而当 
a = l 时,户。(《) si , 这表明永不来呼叫，也不是我们感兴趣的情形， 
所以应有 0< a<l ，从而存在 A >0, 使 

P 0 ( O = e _A< (2.4.20) 

因此当时，我们有 

P 0 (AO=e' AAt = l-AA«+o(AO 
P t ( AO = 1 -P 0 ( AO -i//( AO = AAf+o( AO 


X P ,_ z (0^( A 0^ X = 

l = 2 / = 2 

故由 （2.4.18) 得 

P Jfc («+A0=^*(0(l-AA0+^-i(0 - AA«+o(AO 

k^l 

因此 

Pt ( i + A 2~ Pt(0 - = A [ P t .,(0- P t (0]+ o ( l ) 

k>l 


令 At —0, 得 

P[(t)=\[P k _ l (t)-P k (t )] 9 k^l 

由于已知尸。（0=6_'故有 P ;(0= Ate ^- PjO ]， 可解得 
厂⑴^人‘^这样下去^解得一切/^⑴. 

Pk ( l )= (以 e " Ar , A : = 0，1，2, … 

这正是泊松分布，参数为>^. 

在随机过程理论中，这里所得的结果及所用的方法将被大大 
推广 • 
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L 第二^ 不¥: 

本章中我们讨论了（统计）独立性的概念，它是概率论中最重 
要的概念 之一. 独立性是概率论特有的概念，它的引进大大推动了 
概率论的发展，前期概率论中最重要的一些结果大都是在独立性 
的假定下获得的，只有到了近代才开始研究一些不独立但常在另 
一种较弱独立性假定下的概率模型.读者能在本书的后面部分充 
分体验到独立性的重要性. 

我们定义了事件的独立性与试验的独立性，读者应把它们进 
行 对比. 此外，两个事件独立性的定义与多个事件独立性的定义形 
式上也有区别，应理解为什么会发生这种情况. 

条件概率是概率论中另一重要概念，它与独立性有密切联系. 
在不具有独立性的场合，它将扮演重要角色.条件概率也是某种 
概率. 

本章还导出几个基本公 式：乘 法公式及其推广形式，全概率公 
式，贝叶斯公式，它们以后经常被用到. 

伯努利试验是概率论中最重要的概型之一.正是通过对这个 
概型的不断深入研究，逐渐提出了概率论特有的课题，创造出相应 
的工具与 方法. 它对后来的发展有着不可估量的影响.伯努利试验 
概型在应用上也很重要.在第五章，我们将继续讨论这个概型，证 
明有关的极限定理并最后解决一些本章遗留的计算问题 • 

随机游动是概率论中最早研究的一个动态模型，可追溯到17 
世纪惠更斯对公平博弈中赌徒输光问题的研究，它开了随机过程 
理论研究的先河.当代，随机游动理论的研究仍在深入，应用既广 
且深. 

二项分布与泊松分布是概率论中最重要的三个分布中的两 
个，另一个分布——正态分布，将在下-章 出现. 这两个分布在理论 
研究和实际应用中都很重要.二项分布广泛应用于抽样检查等场 
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合，而泊松分布则大量出现于社会生活和物理现象中.泊松过程的 
结构分析是随机过程理论的最基本成果之一. 

从某些假定出发，利用全概率公式导出某个方程，最后通过解 
方程求出答案，在随机游动和泊松过程研究中使用的这种方法颇 
为有力，它是随机过程理论研究中的分析方法的 特例. 

到目前为止，本课程的展开基本上还是与概率论的历史发展 
相平行的，而且，我们已经为概率论另一重要概念——随机变量的 
引入作了不少准备. 



1. 把字母 S、T、A、T、I、S、T、I、C、S 分别写在一张卡片上，充分混和后重 
新排列，问正好得到顺序 STATISTICS 的概率是多少？ 

2. 若 M 件产品中包含 m 件废品，今在其中任取两件，求：（1)取出的两 
件中至少有一件是废品的 概率； （2) 已知取岀的两件中有一件是废品的条件 
下，另一件也是废品的条件 概率； （3) 已知两件中有一件不是废品的条件下， 
另一件是废品的条件概率. 

3. 甲袋中有 a 只白球，6只黑球，乙袋中有《只白球 ，月 只黑球，某人从 
甲袋中任取两球投入乙袋，然后在乙袋中任取两球，问最后取出的两球全为 
白球的概率是多少？ 

4. 设一个家庭中有/ I 个小孩的概率为 

■ ap n , 1 

= I , ap n 

l-p 

这里 o < P < i , o < a < h ， 若认为生一个小孩为男孩或女孩是等可能的，求证一 
P 

个家庭有个男孩的概率为 2 a //(2- p )* +, . 

5. 在上题假定下：（1)已知家庭中至少有一个男孩，求此家庭至少有两 
个男孩的 概率； （2) 已知家庭中没有女孩，求正好有一个男孩的概率. 

6. 已知产品中96%是合格的，现有一种简化的检査方法，它把真正的合 
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格品确认为合格品的概率为 0.98, 而误认废品为合格品的概率为 0.05, 求以 
简化法检査下为合格品的一个产品确实是合格的概率. 

7. 炮战中，若在距目标250米，200米，150米处射击的概率分别为 0. 1， 
0.7,0. 2，而在各该处射击时命中目标的概率分别为 0. 05 ,0. 1 ,0. 2,现在已知 
目标被击毁，求击毁目标的炮弹是由距目标250米处射出的概率. 

8. 飞机坠落在 A 、 B 、 C 三个区域之一，营救部门判断其概率分别为 0.7, 
0.2,0. 1;用直升机搜索这些区域，若有残骸，被发现的概率分别为 0.3,0. 4, 
0.5, 若已用直升机搜索过 A 区域及 B 区域，没有发现残骸，在这种情况下， 
试计算飞机坠落在 C 区域的概率. 

9. 选择题有4个答案，只有一个是正确的.不懂的学生从中随机选择. 
假定一个学生懂与不懂的概率都是1/2,求答对的学生对该题确实懂的 
概率. 

10. 甲袋中有3只黑球,7只 白球； 乙袋中有7只黑球，13只 白球； 丙袋中 
有12只黑球,8只白球.先以1 : 2 : 2的概率选择甲、乙、丙中的一只袋子.再 
从选中的袋子中先后摸出2球，求：（1)先摸到的是黑球的 概率； （2) 已知后 
摸到的是白球，求先摸到的是黑球的概率. 

11. 甲、乙两人轮流射击，先击中目标者获胜.设甲、乙击中目标的概率 
分别为厂及 p 2 ，甲先射，试求甲获胜的概率. 

12. 飞机有三个不同的部分遭到射击，在第一部分被击中一弹或第二部 
分被击中两弹，或第三部分被击中三弹时，飞机才能被击落，其命中率与每一 
部分的面积成正比，设三个部分的面积的百分比为 0. 1,0. 2,0. 7. 若已击中 
两弹，求击落飞机的概率. 

13. 证 明：对 于事件关系式 

P 2 (AB)+P 2 (AB) +P\AB) +P\A = 

成立的充要条件为 

P(A) = P(B)=Y^ P ⑽)=+ 

14. 若 4 与独立，证明 I 中任何一个事件与 I 0,万 

中任何一个事件是相互独立的. 

15. 若 0< P ( B )<1, 试证： 

(1) P(A\B)= P(A\'B )； 
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(2) P ( A \ B )+ P ( A \ B ) =1 
均为 4 与相互独立的充要条件. 

16. (费勒）抽査一个家庭，考察两个事件,4:至多有一个 女孩; 男女 
孩子都有.假设男女的出生率都是 1/2. 试 证：对 3个孩子之家3与 独立; 
而对4个孩子之家3与 B 不独立. 

17. 事件(：两两独立，从 C = P ( S )= P ( C ), 且已知 

lo 

18. 设(:三事件相互独立，求证 （1) AUB t AB y A - B 皆与（: 独立; 

(2) 亦相互 独立. 

*19. 证明： 事件七，名，…，欠相互独立的充要条件是下列 2" 个等式 成立： 

又)=/>(义 ml ) …尸 (: i „) 

其中又取'或孓 • 

20. 三个工作小组独立对某个密码进行破译，如果他们成功的概率分别 
为 0.4,0. 5,0. 7,试求该密码被成功破译的概率. 

21. 设七，皂，…，欠相互独立，而 = 试求：（1)所有事件全不发 
生的 概率； （2) 诸事件中至少发生其一的 概率； （3) 恰好发生其一的概率. 

22. 当元件 A ： 或者元件 K'R &都发生故障时电路断开，元件 K 发生故 
障的概率等于 0.3, 而元件& ,心发生故障的概率各为 0.2, 求电路断开的 
概率. 

23. 说明“重复独立试验中，小概率事件必然发生”的确切意思. 

24. 甲、乙、丙三人进行某项比赛，若三人胜每局的概率相等，比赛规定 
先胜三局者为整场比赛的优胜者，若甲胜了第一、三局，乙胜了第二局，问丙 
成为整场比赛优胜者的概率是多少？ 

25. 设实验室器皿中产生甲类细菌与乙类细菌的机会是相同的，若某次 
发现产生了 2 n 个细菌，求 （1) 至少有一个甲类细菌的 概率； （2) 甲、乙两类 
细菌各占其半的概率. 

26. 掷硬币出现正面的概率为 p , 掷了 n 次，求下列概率：（1)至少出现 
一次 正面； （2) 至少出现两次正面 • 

27. 甲、乙均有〃个硬币，全部掷完后分别计算掷出的正面数，试求两人 
掷岀的正面数相等的概率. 
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28. 在伯努利试验中，事件 4 出现的概率为/>，求在 / i 次独立试验中事件 
4出现奇数次的概率. 

*29. 在伯努利试验中，若4岀现的概率为/>,试证在岀现 m 次3之前出 
现^次4的概率，即分赌注问题中甲最终取胜的概率，可由 （2. 3. 13)， 
(2.3. 14) ，（2. 3. 15) 中的任一式子表岀，即它们是相等的. 

30. 袋中有10只黑球，10只白球，从中将球一只只摸出，求在第9次摸 
球时摸得第3只黑球的概率. 

31. 设有/ V 个袋子，每个袋子中装有 a 只黑球，6只白球，从第一袋中取 
出一球放入第二袋中，然后从第二袋中取出一球放入第三袋中，如此下去，问 
从最后一个袋中取出一球而为黑球的概率是多少？ 

32. 甲袋中有 yv - 1 只白球和1只黑球，乙袋中有 yv 只白球，每次从甲、乙 
两袋中分别取出一只球并交换放入另一袋中去，这样经过了《次，问黑球岀 
现在甲袋中的概率是多少,并讨论^00时的情况. 

*33. 投硬币/ I 回，第一回出正面的概率为 c , 第二回后每次出现与前一次 
相同表面的概率为 P , 求第 n 回时出正面的概率，并讨论当时的情况. 

*34. 甲、乙两袋各装一只白球一只黑球，从两袋中各取岀一球相交换放 
入另一袋中，这样进行了若干次.以 r „ 分别记在第; i 次交换后甲袋中 
将包含两只白球、一只白球一只黑球、两只黑球的概率.试导岀 P„ +l ,? n+1 ,r n+1 
用人表岀的关系式，利用它们求表达式，并讨论当 
00时的情况. 

35. —个工厂出产的产品中废品率为 0.005, 任意取来1 000件,试计算 
下面概率：（1)其中至少有两件 废品； （2) 其中不超过5件 废品； （3) 能以 
90%的概率希望废品件数不超过多少？ 

36. 试给岀泊松试验的严格表述. 

37. 某厂长有7个顾问，假定每个顾问贡献正确意见的百分比为0.6,现 
为某事可行与否而个别征求各顾问意见，并按多数人的意见作出决策，求作 
出正确决策的概率. 

38. —本500页的书，共有500个错字，每个字等可能地岀现在每一页 
上，试求在给定的一页上至少有3个错字的概率. 

39. 某商店中岀售某种商品，据历史记录分析，每月销售量服从泊松分 
布，参数为7,问在月初进货时要库存多少件此种商品，才能以 0.999 的概率 
充分满足顾客的需要. 
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40. 螺丝钉生产中废品率为 0.015, 问一盒应装多少只才能保证每盒中 
至少有100只好螺丝钉的概率不小于80% (提示 ：用泊 松逼近，设应装1004 
只）. 

41. 某疫苗中所含细菌数服从泊松分布，每1毫升中平均含有一个细 
菌，把这种疫苗放入5只试管中，每试管放2毫升，试求：（1) 5只试管中都有 
细菌的 概率； （2) 至少有3只试管中有细菌的概率. 

42. 实验室器皿中产生甲、乙两类细菌的机会是相等的，且产生 &个细 
菌的概率为 

, & = 0，1,2,… 

试求：（1)产生了甲类细菌但没有乙类细菌的 概率； （2) 在已知产生了细菌 
而且没有甲类细菌的条件下，有2个乙类细菌的概率. 

43. 若每条蚕的产卵数服从泊松分布，参数为 A ， 而每个卵变为成虫的 
概率为 P , 且各卵是否变为成虫彼此独立，求每蚕养活 A : 只小蚕的概率. 

44. 通过某交叉路口的汽车流可看作泊松过程，若在一分钟内没有车的 
概率为0.2,求在2分钟内有多于一车的概率. 

45. 若已知 f = 0 时，某分子与另一分子碰撞，又知对任何《多0和 A ^>0, 
若不管该分子在时刻《以前是否遭受碰撞，在0 〆 +^)中遭到碰撞的概率等 
于 AAf + o ( AO , 试求该分子在时刻 t 还没有再受到碰撞的概率. 

*46. 利用概率论的想法证明下面恒 等式： 

47. 某车间宣称自己产品的合格率超过 99% ,检验人员从该车间的 
10 000件产品中抽査了 100件，发现有两件次品，能否据此断定该车间谎报 
合格率？ 

48. 产品验收方案 规定： 在一批20件产品中，抽取其中4件,若发现1件 
或0件次品，则接受此批产品.如果一批20件产品中含有5件次品，若依上 
述方案验收，试求这批产品被接受的概率. 

*49. 系统中每个元件正常工作的概率为 p , 有半数元件正常则系统可工 
作，对什么 P 值， 2蚪1 个元件的系统比 2 A -1 个元件的系统好？ 

**50. 通过构造适当的概率模型 证明： 从正整数中随机地选取两数，此两 

数互素的概率等于 

TT 
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第三章随机变量与分布函数 


§1. 随机变量及其分布 


一、 随 机变量 的定义 

在随机现象中，有很大一部分问题与数值发生关系，例如在产 
品检验问题中，我们关心的是抽样中出现的废 品数； 在机票超售问 
题中我们关心的是某航班实到旅 客数； 在电话问题中关心的是某 
段时间中的话务量，它与呼叫的次数及各次呼叫占用交换设备的 
时间长短有关.此外如测量时的误差，气体分子运动的速度，信号 
接收机所收到的信号（用电压表示或数字表示）的大小，也都与数 
值有关. 

有些初看起来与数值无关的随机现象，也常常能联系数值来 
描述.例如在掷硬币问题中，每次出现的结果为正面或反面，与数 
值没有关系，但是我们能用下面方法使它与数值联系起来，当出现 
正面时对应数“1”，而出现反面时对应数“0”，为了计算 n 次投掷 
中出现的正面数就只须计算其中“1”出现的次数了. 

一般地，如果4为某个随机事件，则一定可以通过如下示性 
函数使它与数值发生联系： 

t = Jl ，如果4发生 
4 = lo, 如果4不发生 

总之，这些例子中，试验的结果能用一个数6来表示，这个数 
6是随着试验的结果的不同而变化的，也即它是样本点的一个函 
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数，这种量以后称为随 机变置 （random variable ). 本书中将主要用 
希腊字母 f …来表示随机变量.下面我们就来考虑应当如何 
给这种量以严格的数学定义. 

正如对随机事件一样，我们所关心的不仅是试验会出现什么 
结果，更重要的是要知道这些结果将以怎样的概率出现，也即对随 
机变量，我们不但要知道它取什么数值，而且要知道它取这些数值 
的概率. 

从随机现象可能出现的结果来看，随机变量至少有两种不同 
的类型.一种是试验结果 f 所可能取的值为有限个或至多可列个, 
我们能把其可能结果一一列举出来，这种类型的随机变量称为离 
散型随机变置 .在日常生活中经常碰到离散型随机变量，例如废品 
数 、电话呼叫数等等.前面讨论过的随机现象大部分都能用离散型 
随 机变量来描述.例如古典概型中只有有限个可能结果，若对应于 
每一个结果用一个数值来表征，则得到一个离散型随机变量.又如 
在 n 次伯努利试验中，若以 / x 记事件4出现的次数，则 M 可取值 
0,1，2,〜，〃.在上章的应用实例中我们就是这样做的.在呼叫流的 
研究中，若以记 [( M ) 中来到的呼叫数，则 f (0 可取值0,1, 
2,…这些都是离散型随机变量. 

从上章的讨论可以看到，要描述这类随机变量并不难，以 n 次 
伯努利试验中事件4出现的次数 / x 为例，我们知道它是样本点 
的函数，也就是说，严格来讲,应写作 M ( w )， 其中仏它取的值 
是 0,1,2,•••，，并且知道#(⑴）取这些值的概率为① 


①下面出现记号，对于不熟悉这类记号的读者，我们特作如下说明. 
= = 的简写，它表示具有如下性质的样本点的集合 ：在其 上^ 

取固定值—般地，对于从样本空间 D 到数直线 R 1 上的单值映射 f ( o >) ,若 .4 是 R 1 的 
嫉一子集，常以作为丨心以似） e 心的简写，用来表示使以6>)之值属于4的 
耶些样本点的集合，有时还进一步简记作广（4);特别地，即为 U JU ) 
e (- oo ，幻 I ，这里 x 是某一 实数. 
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P \ fi ( a ))= k \ A : = 0， l ,2 ，.，n 

这里我们已经知道了 M ( cu ) 取什么值，以及以什么概率取这些值. 

—般地，对于定义在样本空间/2上的离散型随机变量 Hco ) 
只要能指出它取的值义…以及它取这些值的概率 
P \ H < o ) = x i \ ，纟=1,2,…， n ， …就满足了我们的要求.显然要做到 
这一点，必须要求 = a 丨有概率.因为我们只对事件域，中 
的集合定义概率，所以必须有(⑴）=义丨 e 灭 

与离散型随机变量不同，一些随机现象所出现的试验结果 f 
不止取可列个值，例如测量误差、分子运动速度、候车时的等待时 
间、降水量、风速、洪峰值等等皆是.这时用来描述试验结果的随机 
变量还是样本点 w 的函数 :严格 写应是 f ( w ), 其中但是这 
随机变量能取某个区间 [ c , d ] 或 （-00 ,oo ) 的一切值. 

假如想用描述离散型随机变量的方法（简单地罗列所取的值 
及相应的概率）来描述这后一类随机变量，则会碰到很大的困难. 
一来是这类随机变量所取的值不能一一 列出； 二来，我们下面将会 
看到，取连续值的随机变量，它取某个特定值的概率是0,因此用 
这种描述方法根本不行. 

对于取连续值的随机变量我们所关心的也并不是它取某个特 
定值的概率.例如在测量误差的讨论中，我们感兴趣的是测量误差 
小于某个数的 概率; 在降雨问题中，我们重视的是雨量在某一个量 
级，例如在100 mm 到120 mm 之间的概率.总之，对于取连续值的 
随机变量，我们感兴趣的是 MoO 取值于某个区间 U ,6) 的 
概率,或取值于若干个这种区间的概率.因此应当要求 
W 或 | f ( w )<6| 或一般地其中4是由区间经并、交等 
运算而得到的直线上的某一个点集）有概率可言，既然只对概率 
空间（/3,罵 P ) 的事件域中的集合才定义概率，因此我们自然要 
求上述集合属于％即都是事件. 

通过上面讨论可以看岀，为了使我们感兴趣的概率计算得以 
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进行，我们应对 fU ) 加上一定的限制，主要是要求 U < U ) efil 
应是事件.在离散型随机变量的场合 J 是直线上的某一 个点； 在 
取连续值场合 J 是直线上由区间经并、交等运算而得到的某一点 
集.在概率计算中有时要考虑可列运算，因此较方便的是取5为 
直线上博雷尔点集. 

为此引进如下 定义： 

定义 3.1.1 设 f ( cu ) 是定义于概率空间上的单值 
实函数，如果对于直线上任一博雷尔点集^有 

\(o ： H(o) eB\ e 叉 （3.1.1) 

则称 MW 为随机变量（图 3. 1.1)，而 PU ( w ) 称为随机变量 
f (仿）的概率分布 • 

特别地，若取 B = (-oo ,.0, 

则有 

\(0 ： i(o))<x\ 

(3. 1.2) 

因此 P \ i (( o ) <幻有定义.注意到 
P\a ^^(( o )< b \ = P \ i ( a ))< b \ 

-P\^((o) <a\ 

(3. 1.3) 

所以只要对一切实数％给出概率，就能算出 f ( cu ) 落 
入某个区间 [ a ,6) 的概率，再利用概率的性质还可以算出以0>)属 
于某些相当复杂的直线点集（譬如可列个不相交的左闭右开区间 
之和）的概率. 

定义 3.1.2 称 

F(x)= P\^(o)) <x\ , -oo <a;<oo (3.1.4) 

为随机变量的分布函数 （distribution function ). 

为书写方便起见，通常把“随机变量服从分布函数 
FU )” 简记作 fU ) -F(x). 

由 （3. 1.3) 立刻得到 



图 3.1.1 随机变量 
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P | 叫 ( w)<M =F(b)-F(a) (3.1.5) 

在上面讨论中，我们根据描述随机变量的需要给出了随机变 
量与分布函数的定义.按定义，随机变量是样本点的函数，因此在 
试验前我们只能知道它可能取哪些值，而不能确知它将取何值，这 
就是随 机性; 但是当试验完成之后，它的取值也就明确了.为了计 
算概率，必须要求随机变量具有可测性 （3. 1. 1), 而分布函数的引 
进则把对于随机变量的概率计算化为对分布函数的数值运算.这 
样一来，我们已经在科尔莫戈罗夫的公理化结构中给随机变量予 
严格的定义，同时又为对它的研究准备了方便的分析工具. 

应该指出，最后之所以采用这种定义，还有数学理论上的需 
要，有些进一步的事实，例如若 （3. 1.2) 成立则 （3. 1. 1) 也成立（见 
习题50)，由分布函数可以唯一决定概率分布等等是可以通过测 
度论①的方法证明的，这些已超出本课程范围，我们将不予讨论. 

概率论是研究大量随机现象中的数量规律的数学分支，研究 
随机变量和分布函数是它的重要任务，而且概率论中所研究的也 
大都局限于能用随机变量来描述的随机现象.前面已指出，随机事 
件的研究可通过示性函数转化为对随机变量的研究，随机变量是 
取数值的，因此可以对它进行各种数学运算，研究起来就很方便. 

二、分布函数的性质 

我们先把分布函数的最基本的性质汇集于下列定理中. 

定理 3.1. 1分布函数具有下列 性质： 

( i ) 单调 性：若 则 F ( a )< F (6) ; 

( ii ) lim F(x)= 0, lim F(x)= 1 ； (3. 1.6) 

( iii ) 左连 续性: FU -0 )=F (幻. 

[证明] ( i ) F(b)-F(a)=P\a^<b\ ^0. 


①本书共 4 处引用只有用测度论方法才能证明的结论. 
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(ii) P I -oo <^< + oo I .= I P j | 

n s - oo 
00 

=X [FU+D-FU)] 

W = - 0D 

=lim F( n) - lim F(m) = 1 

ft—f + oo m—_ ® 

由于 F( %) 的单调性， lim F(x) = lim F(m) 9 lim F(x) = lim F(n) 

x—►-» m — x—♦ + od n—► + » 

存在. 

因为 0< FU )<1， 故 

lim F(x) = 0 f lim F(x)= 1 

x ― ► - ® x — ► + » 

今后为书写方便起见，将记 

F (- oo )= lim F(x) , F( +oo ) = lim F(x) (3.1.7) 

x—*—♦ + «» 

(iii) 由于 F ( 幻是单调函数，只须证明对于一列单调上升的 
数列 ％。<〜 <〜<••• <\ 〈 … y x n -^x 成立 limFbJ: F( ： 0 即可 . 

n—►» 

因为 

» 

F(x)-F(x 0 )= P\x 0 ^^<x\ = ^ [FixJ-Fix^)] 

/l =3 1 

= \imF(x n )-F(x 0 ) 

71—00 

所以 

F(x-O) = \imF(x n ) = F(x) 

n—* oo 

可以看出分布函数的这三个基本性质，正好对应于概率的三 
个基本性质. 

有了分布函数，关于随机变量6(0>)的许多概率都能方便算 
出，例如 

P = a \ =F(a-\-0) -F(a) 

P \^{( o ) I = F ( a +0) 

P|^(c«>) ^a( = l-F(a) 

PU(w)>a| =l-F(a+0) 

综上所述，分布函数是一种分析性质良好的函数，便于 处理; 
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而给定了分布函数就能算岀各种事件的概率.因此引进分布函数 
之后，许多概率论问题便简化或归结为函数的运算，这样就能利用 
数学分析的许多结果.这也是引进随机变量的好处之一. 

可以证明满足上述定理中三个性质的函数必是某随机变量的 
分布函数，关于这点的讨论将在第3节进行. 

对于随机变量及其概率分布的研究，若按随机变量的不同类 
型分别讨论是有好处的，下面我们将照此线索进行. 


三、离散型随机变量 


设 I 为离散型随机变量 f 的所有可能值;而 ；>( y 是 f 取' 
的概率，即 

p \^ = Xi } = p ( x t ) , Z = l ,2,3, … （3.1.8) 

|/>(\)，;=1，2,3，一丨称为随机变量6的概率分布，它应满足下面 
关系： 


p ( Xi )^ 0 9 沁 1,2,3,… （3. 1.9) 

oc 

p(x t ) = i (3. i. io) 

( =1 

当给定了 uj = l ，2, …丨及 IpUJ , 纟=1，2,…丨，我们就能很好地 
描述随机变量6因为我们已经知道了它取什么值，以及以什么概 
率取这些值，而这正是我们对随机变量所关心的问题. 

常用下列方式来表出离散型随机变量6的概率分布， 


- (3.1.11) 

P pUi) p(x 2 ) … P ( 龙 J … 

(3.1. 11 ) 称为随机变量 f 的分布列，由分布列能一目了然地看出 
随机变量 f 的取值范围及取这些值的概率. 

有了分布列，可以通过下式求得分布函数 

F{x) = P\^ < x\ = Y,P( x k) 

x k< x 
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(3. 1. 12) 



图 3 . 1.2 6 ( 3 ，+) 的概率分布与分布函数 

下面看一些离散型随机变量及其概率分布的例子.这些分布 
大都在上两章引入过. 

[ 退化分布]若随机变量 a 只取常数值 c , 即 

P\a = c \ =1 

这时分布函数为 

rO , x^c 

/ c (小， (3.1.13) 

1， x>c 


显然这时 FU ) 是一个跳跃函数，它在每个义处有跳跃度 p (^). 当 
然，由分布函数 FU ) 也可唯一决 定乂及 />(&), 因此用分布列或 
分布函数都能描述离散型随机变量. 

图 3. 1.2 中显示一个离散型随机变量的概率分布 jp (\) 丨以 
及与它对应的分布函数 FU ). 


p ( x ) 
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可以说，这样的 a 并不随机,但有时我们宁愿把它看作随机变量 
的退化情况更为方便，因此称之为退化分布，又称单点分布. 

[伯努利分布]在一次试验中，事件4出现的概率为 P ， 不出 
现的概率为 g = 若以卢记事件4出现的次数，则 )8 仅取0,1两 
值，相应的概率分布为 

b k =P\/^-k\ =p k g l k 9 A: = 0,1 (3.1.14) 

这个分布称为伯努利分布，亦称两点分布. 

[二项分布]在 n 重伯努利试验中，若以 M 记成功的次数， 
则它是一个随机变量， M 可能取的值为0,1，2,…，〃，其对应的概率 
由二项分布 给出： 


b(k ； n 9 p)= P\fjL, = k\ 

A ： = 0,l ， 2，.，n (3. 1. 15) 

简记作 M 〜 B(n ， p). 

关于二项分布及其计算已在上章作过详细讨论，这里不再重 
复.至于为什么称为分布，到了此处自然十分明白. 

顺便指出，伯努利分布可以看作 n = l 时的二项分布，这时相 
应于一次试验的场合. 

[超几何分布]对某批#件产品进行不放回抽样检查，若这 
批产品中有 M 件次品，现从整批产品中随机抽出 n 件产品，则在 
这 n 件产品中出现的次品数 p 是随机变量，它取值0,1，2,…， n , 
其概率分布为 超几何分布. 


h k -P\v-k\ 



O^k^n^N 

k^M 


(3.1.16) 


这个分布在第一章中已经出现，我们还证明过当 W 很大而 n 
较小时，它可用二项分布来近似. 

[泊松分布]若随机变量 f 可取一切非负整数值，且 
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P \^ k \ =^ e ' A , ^ = 0,1,2,... (3.1.17) 

其中 A >0, 则称 f 服从泊松分布.简记作 f 〜 P ( A ). 

泊松分布是概率论中非常重要的一个分布，在第二章§4中 
已对它进行过初步讨论，以后我们还会经常提到它. 

[几何分布]在成功的概率为 p 的伯努利试验中，若以7/记 
成功首次出现时的试验次数，则7；为随机变量，它可能取的值为 
1,2，3,…其概率分布为几何 分布： 

g ( k 9 p )= P\yj = k \ = q k ~ l p f k -\ ,2, ♦•- (3. 1. 18) 

作为一种等待（时间）分布，我们在前两章中已多次碰到过几 
何分布，这也说明了几何分布是一种常见的概率分布.几何分布在 
概率论中的重要性，还在于它具有下面特殊的性质. 

几何分布的无记忆性如上所述，在伯努利试验中，等待首次 
成功的时间7?服从几何分布 （3. 1. 18). 现在假定已知在前 m 次试 
验中没有出现成功，那么为了达到首次成功所再需要的等待时间 
V ,其概率分布为 

P | 77^ = A : | - P \ r ) = m^k \ rj>m | 

_ P\rj = m^k \ _ q m+k i p 
P \ r ]> m \ q m 

= Q k ~ l p 9 A := l ,2, … 

还是服从几何分布 （3. 1. 18) ，与前面的失败次数 m 无关，形象化 
地说，就是把过去的经历完全忘记了.因此无记忆性是几何分布所 
具有的一个有趣的性质. 

更加有趣的是，在离散型分布中，只有几何分布才具有这样一 
种特殊的性质.下面我们来严格叙述并证明这个事实. 

若 V 是取正整数值的随机变量，并且，在已知的条件下， 
的概 率与& 无关，那么7；服从几何分布. 

这个论断的证明如 下：以 P 记上述条件概率，并记 q k = P \ v > 
及 Pk =p \v = Jc \ ，那么 Pft + 1 ，而且在已知的条件下， 
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― 1 的条件概 率为铲 因此 


Pk+l 
— =p 


即 


^ A+l . 

— = l-p 

<h 

注意到％ = 1，那么％ = (1_ P ) A , 因此 

• Pk = ( l -p) h ' l Py 灸 = 1 ， 2 , … 

这正是几何分布 （3.1.18). 

[帕斯卡分布]在成功的概率为 P 的伯努利试验中，若以 （ 
记第 r 次成功出现时的试验次数，则【是随机变量，取值 r , r + l ，… 
其概率分布为帕斯卡 分布： 

= :卜 V ' k = r ， r+l ， … ( 3 . 1 . 19 ) 

这分布在上章 §3 出现过.显然当 r = l 时，即为几何分布. 

另一方面若以％记从第 f -1 次成功之后的第一次试验算起至 
第〗 次成功为止共进行的试验次数，则&服从几何分布 （3. 1. 18), 
而且 

( = •^+•••+7^ (3. 1. 20) 

若记 f 则》 表示为等待第 r 次成功所经历过的失败次 

数，那么， 

/ >|》=,| = P |^ = r +/| =^^^ p r q r+l ~ r 

= ( r+ ; /) 〆 (-?)、 。0，1，2广. 

( 3 . 1 . 21 ) 

显然，（与〖只是计数方式的不同，一个记全部试验数（包括 
成功次数与失败次数），另一个则只记失败的次数，它们描述的是 
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同样的随机模型. 

这样定义的概率满足非负性及 

S ( /]〆(- - 兮 ) - r = 1 

因此 （3.1.21) 也表示一个概率分布，不少书上把这个分布作为帕 
斯卡分布的定义. 

特别地 ，取 『=1, 考察为等待第 1 次成功所经历过的失败次数 
^那么， 

P\V = 1\ =^P, Z = 0, l ，2, … (3.1.22) 

这也是一个分布，表示等待首次成功所经历过的失败数，也称为几 
何分布. 

有趣的是，等待第 r 次成功所经历过的失败次数也可作如下 
分解： 

其中^也服从分布 （3. 1.22). 

总之，几何分布与帕斯卡分布都有两种表达式，本书釆用前 
者， B 卩 （3. 1. 18) 及 （3. 1. 19) ，阅读参考书时务请注意. 

对帕斯卡分布，可以略加推广，即去掉 r 是正整数的限制，这 
便得到 

[负二项分布]对于任意实数 r >0, 称 

Nb(l ; r,p)=( ^ p(-q ) 1 , / = 0 , 1 , 2 , ••• 

(3.1.23) 

为负二项分布. 

从前面的推导过程中很容易看出这的确是一个概率分布，它 
的取名也很自然. 

负二项分布作为某些离散随机现象的数学模型，正在逐步引 
起人们的注意. 
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四、连续型随机变量 


除了离散型随机变量之外，还有一类重要的随机变量—— 连 
续型随机变量 .这种随机变量 f 可取某个区间 [ cj ] 或 （-00 , 00 ) 
中的一切值，而且其分布函数 FU ) 是绝对连续函数，即存在可积 
函数/>(幻，使 

= f p(y)dy (3. 1.24) 

J — oo 

称 P ( x ) 为爸 的（分布） 密度函数 （density function ). 

显然 

p(x)=F , (x) (3. 1.25) 

由分布函数的性质可知对 pO ) 应有 

p(x)^0 (3.1.26) 

f p(x)dx = 1 (3.1.27) 

J — Q0 

反之，对于定义在 （-00 ，oo ) 上的可积函数 pU )， 若它满足 
(3. 1.26) 及 （3. 1.27)，则由 （3. 1. 24) 定义的函数 F (幻是一个分 
布函数，即它有分布函数所必须具备的三个性质. 

顺便指出，由于在若干个点上甚至一个零测集上改变被积函 
数 />( 幻的值，都不影响积分 F (幻之值，因此，关于 />( 幻的论断通 
常都是在“几乎处处”的意义上成立，今后不再一一提及. 

由 （ 3. 1.5 ) 立刻得到 

P\a < 6( = F(b) - F(a) = J p(x)dx (3. 1.28) 

因此给定密度函数，便可以算出随机变量落入某一个区间的概率. 
进一步，可以证明，对于任何博雷尔点集 B ， 有 

P\^B\ = | p(x)dx (3. 1.29) 

B 

下面对任意实数 c , 计算 = W ，因为 

fC + h 

P\^ = cI ^ PI c ^ ^ < c h\ = J p(x)dx 
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故 


0 ^ P j f = cj ^ lim f p ( x)dx = 0 

h—*OJ c 

因此 

PU = c \ =0 

即连续型随机变量取个别值的概率为0,这与离散型随机变量截 
然不同.因此用列举连续型随机变量取某个值的概率来描述这种 
随机变量不但做不到，而且也毫无意义 • 

此外，上述结果还表明 ，一 个事件的概率等于零，这事件并不 
一定是不可能 事件； 同样地 ，一 个事件的概率等于 1， 这事件也不 
一定是必然事件. 

密度函数不是概率，但在 p ( x ) 的连续点 x 处， 

p ( x ) Ax |* p ( y)dy = F(x + Ax ) - F ( x ) (3.1.30) 

J x 

因此密度函数 pU ) 的数值反映了随机变量取％的邻近的值的概 
率的 大小.所以用密度函数描述连续型随机变量的概率分布在某 
种意义上与离散型时用分布列描述，又有相似之处. 

虽然密度函数与分布函数含有相同信息量，但在图形上，密度 
函数对各种分布的特征的显示要优胜得多，因此它比分布函数更 
常用. 

下面举一些常见的连续型分布的例子. 

[均勻分布]若 a ，6 为有限数，由下列密度函数定义的分布 
称为 [ a ,6] 上均匀 分布： 

p ( x ) = \ b 1 ^ i a ^ x^b (3.1.31) 

l 0， 或； c >6 

相应的分布函数为 
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F(x)=\ 


0 , 


^ a 


(3. 1.32) 


a _ * 

—,a < x ^ b 
a 

, x > b 

[ a ,6] 上均勻分布有时简记作 U [ a 9 b ]. 

若随机变量 f 服从 [ a ,6] 上均勻分布，则 f 在 [ a ,6] 中取值落 
在某一区域内的概率与这个区域的测度成正比.粗略地讲就是 J 
取 [ a ,6] 中任一点的可能性一样.当然也可以反过来看，均勻分布 
正是把这种直观的讲法严格化. 

图 3. 1.3 画出了 [ a , 6] 上均勻分布的密度函数及分布函数. 
[例 1] 定点计算中的舍入误差可以作为常见的均勻分布随 
机变量的例子.假如我们在运算中，数据都只保留到小数点后第五 
位，而小数点第五位以后的数字按四舍五人处理.若以％表示真 
值，以$表示舍入后的值,则误差 ^ = 一般假定为 [-0. 5 xl 0- 5 , 

0.5 xl 0_ 5 ] 上均勻分布的随机变量，有了这个假定，就能对经过大 
量运算后的数据进行误差分析，这种误差分析在用数字计算机解 
题时是很必要的，因为数字计算机字长总是有限的. 


t p(x) 

_1 _ 

b-a 


图 3. 1.3 均匀分布的密度函数与分布函数 
[正态分布]密度函数为 

\ _(x-si ) 2 

p ( x )= e ~ 2 <r 2 , -00 < x<cc (3.1.33) 
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其中 a >0, M 与 cr 均为常数，相应的分布函数为 

F(x)= — f eD dy ， -oo <x<co (3.1.34) 

这分布称为正态分布 （normal distribution ) ，简记为 N ( fjL 9 a 2 ). 

特别当 M = a = l ， 这时分布称为标准正态分布，记为 
~(0,1)，相应的分布密度函数及分布函数分别记为 pU ) 及 
少 U ), 见图 3. 1.4 及图 3. 1.5. 



95%面积 
99%面积 


图 3. 1.4 标准正态密度函数史(幻 


1 _*! 

<p(x) = ' e~ 2 , -oo <x<oo 

y2rT 


0 ⑷ 



-00 < A ；<00 


(3. 1.35) 
(3.1.36) 


习惯上把服从正态分布的随机变量称为正态变量.可以验证，若随 
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图 3. 1. 5 标准正态分布函数 < P ( x ) 


机变量 f 服从正态分布#(^,^),简记作6~#(^，^)，则随机变 

量（=&服从#(0，1). 
a 

为了说明 （3. 1.33) 确实定义了一个密度函数，需要验证关系 
式 （3. 1.26) 及 （3. 1.27)，显然 

p ( x )>0 


因此剩下的是验证 （3. 1.27) .令则 

(T 


但是 




x-ji) 1 

•e 2«r 2 dx 




\/2 tt 


e~ T dz 


If 丄丄 Jdrl 
W -® yiTT ) \ J -cc ^/2 tt ) 

士 f f e-^dxdy 

2 r Jl j - 00 j - 0D 
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变换到极坐标，令 x = rcos ( p f y = rsin 贝 lj 

e'^dxdy 

2 TT J — 00 •/ 一 00 

^ infoC e4rdrd，P 

r * _£ 

= re 2 dr = 1 

Jo 

由 f -^= ehz 的非负性知 

广 1 (»-u) 2 r® 1 _ii 

I ^ — e 2 o - 2 di = I ■- 一 e 2 dz = 1 

-» J -» 

从而完成了 （3.1.27) 的验证. 

这里的做法相当别 致:釆 用耦合方法把一维问题化为二维问 
题，并很快得到解答.令人遐思. 

正态分布是概率论中最重要的分布 .一 方面，正态分布是自然 
界最常见的一种分布，例如测量的 误差; 炮弹弹落点的 分布； 人的 
生理特征的尺寸 ：身高 ，体 重等； 农作物的收 获量； 工厂产品的尺 
寸 :直径 ，长度，宽度，高 度； ……都近似服从疋态分布.一般说来， 
若影响某一数量指标的随机因素很多，而每个因素所起的作用不 
太大，则这个指标服从正态分布，这点可以利用概率论的极限定理 
来加以证明.另一方面，正态分布具有许多良好的性质，许多分布 
可用正态分布来近似，另外一些分布又可以通过正态分布来导出， 
因此在理论研究中，正态分布十分重要. 

一般正态分布密度函数 P (幻的图形见图 3. 1.6,通过图形或 
(3. 1.33) 不难 看出: />(幻在处达到极大，整个图形关于 
对称.当 o * 不同时， p ( x ) 的形状也不同越小，分布越集中在％ = 
M 附近；当^越大时，分布就越平坦. 

由于正态分布在概率计算中的重要性，已编造了各种各样的 
正态分布表，本书的附表中就有 m = o , o *= i 时的正态分布密度函 
数史（幻和正态分布函数少（幻的表.由于史 （ -%)=史（幻及少 （ -幻 


• 133 - 




=1- 少（幻，所以表中只对正的 X 给出史 U) 及少 U) 的数值•一般 
TV(/t,C7 2 ) 的分布函数值可 由变换 而得. 



图 3. 1.6 从= 0且具有不同的 cr 2 的正态密度曲线 


事实上，若 f ~AK/t，a 2 )， 则 
F ( x )^ P \^< x \ 



=十-〜 


(3. 1.37) 

P\a^^<b\ 

=0(^)-0 

d 

(3.1.38) 

\ a ) 

\ cr / 


P\ \^~fl\<k(T\ 

= pJ-A ； <^<A：j 




= 0(k) - 0(-k)=2<P(k)-l 

(3.1.39) 


从表中可以看出，若 f 服从 ；V( M ,cr 2 ) ，则 
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P ) \^\<(t \ «68.27% 

P \ \^- fi \<2( r \ «95.45% (3.1.40) 

P \ «99. 73% 

因此可以 i 兑，在一次试验里 J 几乎总是落在 
之中. 

下例说明正态分布与实测数据符合得很好. 

[例 2] 上海手表厂曾对其生产的某个零件的重量收集了大 
量资料，对测量得的3 805个数据，按不同重量加以分组，并记录 
了不同范围内零件的个数（频数），计算了它们的频率，结果如下 
表所示，它们与 M = 56. 94, ^ = 8. 2的正态分布符合得相当好， 
图 3. 1. 7表示了两者符合的情况. 



图 3. 1.7 实测数据频率直方图与正态密度曲线 
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区间 [， a ; i+1 ) 

频数& 

频率 乂=^ 

It 


a ) ^\ a ) 

(-00 ,41.5) 

125 

0. 032 85 

0. 030 05 

[41.5,43.5) 

72 

0.018 92 

0.021 50 

[43.5,45.5) 

124 

0. 032 59 丨 

0. 029 21 

[45.5,47.5) 

145 

0.038 11 

0. 044 31 

[47.5,49.5) 

193 

0. 050 72 

0. 056 30 

.[49.5,50.5) 

137 

0. 036 0 

0. 033 4 

[50.5,51.5) 

131 

0. 034 4 

0. 039 8 

[51.5,52.5) 

154 

0. 040 5 

0. 040 0 

[52.5,53.5) 

156 

0. 041 0 

0. 042 6 

[53.5,54.5) 

174 

0. 045 7 

0. 045 7 

[54.5,55.5) 

186 

0. 048 9 

0. 047 2 

[55.5,56.5) 

191 

0. 050 2 

0.048 4 

[56.5,57.5) 

206 

0. 054 1 

0. 048 6 

[57.5,58.5) 

193 

0. 050 7 

0. 048 2 

[58.5,59.5) 

185 

0. 048 6 

0.047 2 

[59.5,60.5) 

153 

0. 040 2 

0. 045 4 

[60.5,61.5) 

176 

0. 046 3 

0. 043 0 

[61.5,62.5) 

147 

0. 038 6 

0. 040 2 

[62.5,63.5) 

144 

0. 037 8 

0. 037 0 

[63.5,64.5) 

140 

0. 036 8 

0. 033 1 

[64.5,65.5) 

109 

0. 028 6 

0. 029 9 

[65.5,66.5) 

111 

0. 029 2 

0. 028 2 

[66.5,67.5) 

93 

0. 024 44 

0. 022 47 

[67.5,69.5) 

127 

0. 033 38 

0. 035 52 

[69.5,71.5) 

81 

0.021 29 

0. 025 47 

[71.5 ,oo ) 

152 

0. 039 95 

0. 037 54 

总 和 

/i = 3 805 
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我们通过下面例子来说明正态分布的计算. 

[例 3] 从南郊某地乘车前往北区火车站搭火车有两条路线 
可走，第一条路线穿过市区，路程较短，但交通拥挤，所需时间（单 
位为分）服从正态分布5(50,100)，第二条路线沿环城公路走，路 
程较长，但意外阻塞较少，所需时间服从正态分布 7 V (60，16), 
(1) 假如有70分钟可用，问应走哪一条路线？ （2) 若只有65分 
钟可用，又应走哪一条路线？ 

[解]显然应走在允许的时间内有较大概率及时赶到火车 
站的路线，若以 t 记行车时间，则有关概率 如下： 

(1) 有70分钟可用时，走第一条路线及时赶到的概率为 

P | r ^70) 二 0(2)=0.977 2 

走第二条路线及时赶到的概率为 


P ) r ^70) =0, 


70-60 、 
4 J 


少 （ 2.5) 二 0.993 8 


因此在这种场合，应走第二条路线. 

(2) 只有65分钟可用时，走第一条路线及时赶到的概率为 

65 —50、 


P | r ^65( =少 


0(1.5)= 0.933 2 


走第二条路线及时赶到的概率为 

65-60 


Plr ^65| =少 


4 


0(1.25)=0.894 4 


因此这种场合应走第一条路线. 
[指数分布]分布密度函数为 

r Ae' 


分布函数为 


P(x) 


F(x) 


[ 0 , 


lo, 


x^O 

x <0 

x^O 

x <0 


(3.1.41) 


(3.1.42) 


这里 A >0, 是参数，这分布称为指数分布.简记为 Exp ( A ). 
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指数分布有重要应用，常用它来作为各种“寿命”分布的近 
似，例如电子元件的寿命，某些动物的寿命，电话问题中的通话时 
间，随机服务系统中的服务时间等都常假定服从指数分布 .， 

指数分布的重要性还表现在它具有类似于几何分布的“无记忆 
性”.设随机变量 f 服从指数分布 (3. 1.42) ，则对于任意的 s >0 ，《>0, 


• 一 


e ~ 


A(s+0 


e ~ 


因此 


P \^ s ^ t \^ s \ = P \^ t \ (3. 1.43) 

假如把 f 解释为寿命，则 （3. 1.43) 表明，如果已知某人的年龄为 
s , 则再活£年的概率与年龄 s 无关，所以有时又风趣地称指数分布 
是“永远年青”的. 

下列事实也是正确的 ：指数 分布是唯一具有性质 （3. 1.43) 的 


连续型分布. 


我们来证明这个论断. 

设 f 是非负的，其分布函数为 F (幻，记 

G(x)-P\^x\ 

则由 （3.1.43) 可以得到 

G (. s +0= G ( s ) G ( t ) 

对一切$0,00成立.因为关于 x 单调.所以由引理 2. 4. 1知 

G ( x ) = a , x^O 

由于 G ( x ) 是概率，故 0< a < l ， 可以写成 a = e '其中 A >0. 因此 
F ( x )= l - G ( x )= l - e~ Xx 9 x^O 

从而证明了结论. 

应当指出，指数分布与泊松过程有密切关系，若以 MO 记参 
数为入 t 的泊松过程，以 n 记它第一个跳跃发生的时刻，则 

P \ t y ^ t \ = P \(( t )= 0( 

因此 

P \ T { ^ t ] = e~ Xl 

这说明^服从指数分布 （3. 1.42). 下面把这个结果推广到更为一 
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般的场合. 


[埃尔朗分布]若是参数为 / U 的泊松过程，以恥记它 
的第 r 个跳跃发生的时刻.事件发生表明第 r 个跳跃出现 
在时刻 （之前 ，因此事件发生，即丨 C U(O^r) ； 
反之，若事件发生，即在时刻 〖时 之值不小于 h 这时 
第 r 个跳跃已经出现过，因此事件发生，即有多 rl C 
.综上所述可知 


I W r <t \ = 1^(0 ^r| 

以 FU ) 记％的分布函数，则 

F(t)=P\W r <t\ =PU(0^r| 

- 十 ( AQ A e~ A< _ (\t) k e 

k^r k=o 

因此 


(3.1.44) 


p(t)=F f (t) 





I 

A = 0 


k(Xt) k ~ l 




( AQ * 

k \ 


- Ae - X 


(aqh 

! (左 -1)! 


= A ( A 0^ A ,_ 
"( r -1)!" 

因对于任意的 r>0 ， A>0, 


A r r-l 

no 




/v r 

r (7)^ 



所以，对任意的正整数 r 及实数 A >0 ， 


(3. 1.45) 


P(x) = 


( r - l )! 




x^O 


(3. 1.46) 


是一个密度函数，称为埃尔朗分布，它是丹麦科学家埃尔朗 （ Erlang ) 
在研究电话问题时引进的，这些研究开创了排队论这一学科. 


前面的推导说明，泊松过程中第 r 个跳跃发生的时刻％服从 
埃尔朗分布. 
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当 r = l 时，埃尔朗分布化作指数分布.另外，若记 


= (3. 1.47) 

T = W r - W r ^ , r = 2,3，. 

则 I 表示泊松过程的第 r 个跳跃间隔，用它们可以给出跳跃时刻 
[的如下表达式 

% = t !+ ^ ^ 2 + …+*^ l • (3. 1.48) 

可以证明，& ,『 2 ，…， I 均服从参数为 A 的指数分布，且相互 独立. 
这个性质与帕斯卡分布类似. 

埃尔朗分布也可略加推广，当 r 为任意正实数时，由 （3. 1.45) 
可知能定义如下分布. 

[ r 分布]称密度函数为 


r A r 

f(x) = \r(r) x 


0 , 


x>0 


(3.1.49) 


的分布为 r 分布，其中 A >0, r >0 为参数.简记作 r ( r,A )( 图 3. 1. 8). 
这里， r 称为形状参数， A 称为尺度参数. 



当然, r 分布包含埃尔朗分布作为特例，此外，它在概率论和 
数理统计中还有许多应用，是重要分布之一. 

[伯努利过程与泊松过程]若每隔 心 进行一次试验，则伯 
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努利试验也可以看作一个随时间而变化的过程. 

在伯努利试验中，到时刻为止，共进行〃次试验，这时成 
功次数服从二项分布.而在泊松过程中，到时刻£的来到数则服从 
泊松分布. 

为等待第一次成功，伯努利试验中的等待时间服从几何 分布; 
而泊松过程中则服从指数分布.它们都有无记忆性. 

为等待第 r 次成功，伯努利试验中的等待时间服从帕斯卡分 
布； 而泊松过程中则服从埃尔朗分布. 

正如二项分布的泊松逼近，上述结果可以严格化.不过在这里 
列出这个对比，只是想让读者有一种系统地记忆几种常见离散型 
分布和连续型分布的方法. 

+ 五、关于分布函数的一些结论 

我们已经证明了分布函数是单调函数，利用实变数函数论中 
关于单调函数的一般结果 ①, 不难推出分布函数具有如下 性质： 

(1) 分布函数至多只有可列个不连 续点； 

(2) 对分布函数 F (幻有勒贝格分解 

F(x) = Cj (^) +c 2 F 2 (x) +c 3 F 3 (x) (3. 1.50) 

其中(幻是跳跃函数， F 2 ( x ) 是绝对连续函数， F 3 U ) 是所谓奇异 
函数，它们都是分布 函数； 而0^1，£=1，2,3,且0 1+ 心 + 0 3 = 1. 

在我们讨论过的分布函数中，离散型分布函数是跳跃函数，相 
当于在 （3. 1.50)中取~ = 1，0 2 =0 3 =0 的 场合； 而连续型分布函数 
是绝对连续函数，相当于在 （3. L 50)* Sc 2 = l ， Cl = c 3 =0 的 场合； 
自然会想到，也可以取4 = 1，~=化=0，得到另一类分布函数.这 
个结论是正确的，理论上确实存在着另一类分布函数 —— 奇异型 
分布函数，它是连续函数，但却不能表为不定积分，因此它没有密 


①参看复旦大学数学系.实变数函数论与泛函分析概要（第二版）.上海科技出 
版社 .1963 .第四章 • 
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度函数.不过到目前为止，常用的分布都是离散型或连续型的，因 
此我们不准备对奇异型分布多加 讨论. 以后证明结果或是对离散 
型进行，或是对连续型进行，或者对一般分布进行. 

§2. 随机向量，随机变量的独立性 

一、随机 向量及 其分布 

在有些随机现象中，每次试验的结果不能只用一个数来描述， 
而要同时用几个数来描述，例如对于钢的成分，需要同时指岀它的 
含碳量、含硫量、含磷量等等.这样，对应于每个样本点 W 试验的 
结果将是一个向量 （ f ( W ) ，匕 （⑴） ，… ) ，这个向量取值于 U 
维欧几里得空间 R n . 

定义 3.2.1 若随机变量 f ( w )， f 2 ( w ) ，…，匕 U ) 定义在同 
一概率空间上，则称 

i ( o ))= ，彡 2( 似)，…，(如 ）) (3.2.1) 

构成一个/ I 维随机向量，亦称〃维随机变置.显然，一维随机向量 
即为随机变量. 

固然可以对随机向量的一个个分量分别研究，但是我们马上就 
会看到，把它们作为一个向量，则不但能研究各个分量的性质，而且 
还可以考察它们之间的联系，对许多问题来说，这是十分必要的. 
对于任意的 n 个实数 a , a 2 , 

，芩 2 ( 仞）〈欠 2 ， … yL(0))<X n \ 

n 

= n • (3.2.2) 

i= 1 

n 

亦即对于 ir 中的 n 维矩形 [] (- oc , 义），有 

i = 1 

i 彡 (w) e C n \ e.^ 

利用测度论的方法还可证明，若圪为 R n 上任一博雷尔点集，也有 
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(3.2.3) 


|f(w) bBJ 

以后我们将要用到这个结论 （ 图 3. 2. 1 ). 

类似于一维的场合,我们引进如下定义. 

定义 3.2.2 称 n 元函数 

^(^1 ，欠2,…，无 „)= （以）<义(似）<欠 2 ，“. ， L (^)< X n \ 

(3.2.4) 

为随机向量 f (⑴ ）=( fU ), 心 U )， …，匕(以））的（联合）分布 函数. 

给定了联合分布函数后，可以计算事件 
^2 »*** y ^ n ^ L< b n t 的概率，例如当灯= 2时， 

P| fl i 彡彡 ， a 2 $f 2 <M 

= F ( b l 9 b 2 ) - F ( a l 9 b 2 ) - F ( b l 9 a 2 ) + F ( a 19 a 2 ) (3.2.5) 

这个结果容易从图 3. 2. 2 看岀. 



图 3. 2.1 二维随机向量 图 3. 2. 2二维概率计算 

类似于一元的场合，可以证明多元分布函数的一些性质. 

( i ) 单调性 :关于 每个变元是单调不减 函数； 

( ii ) F ( x l 9 x 29 — 9 - cc ，…， 欠„)=0， 

尸 (+ 00 ，+ 00 ,•••,+00 )= 1 ； 

( iii ) 关于每个变元左 连续. 

在二元场合，还应 该有： 
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( iv ) 对任意 , a 2 <6 2 , 都有 

F(b' ,b 2 )-F(a l 9 b 2 )-F(b l ,a 2 )+F(a, ,a 2 ) ^0 
为保证 (3.2.5) 式中的概率的非负性，性质 ( iv ) 是必须的,而且由 
性质 ( iv ) 可以推出单调性，但存在着反例说明，由单调性并不能保证 
性质 ( iv ) 的成立（见习题 12) .这是多元场合与一元场合的不同之处. 

可以证明 :满足 （ ii )，（ iii )，（ iv ) 这三条性质的二元函数是某二维 
随机变量的分布函数. 

类似的结论对〃元场合也成立. 

随机向量也有不同类型，最常见的也是离散型与连续型两类. 
在离散型场合，概率分布集中在有限或可列个点上.重要的多 
元离散型分布有多项分布与多元超几何分布，它们分别是二项分 
布与超几何分布在多元场合的推广. 

[多项分布]在试验中，若每次试验的可能结果为义， 
4 ，•"，<， 而 P(A i ) = p i9 i= 1 ,2,*",7*, 且户 1 +/) 2 +〜+/^ = 1，重复这种 
试验〃次，并假定这些试验是相互独立的，若以匕，…，6分别 
记次 ，4,…,次出现的次数，则 

p\L=K，g = K ， … ， i=K\ … p, r 

(3.2.6) 

这里整数 卜多 0,且仅当 k ， k 2 +… + k r = n 时上式才成立，否则为 0. 
多项分布在第二章§3中已岀现过. 

[多元超几何分布]袋中装 i 号球况只，1，2,…，/*， 
%='从中随机摸出/ I 只，若以 U 2 ，…义分别记1, 
2,号球的出现数，则 



这里整数\多0,且仅当 n 1+ n 2 + 〜+\ = n 时上式才成立，否则为 0. 
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古典概型一节•的例 2 就是这种类型. 

以上两个分布在抽样中常用，前者用于有放回场合，后者则用 
于不放回场合. 

在连续型场合，存在着非负函数 〆 '，•••,&)，使 

厂(欠 1 ， …人 ）=f ••• f P(yi ， …， (3.2.8) 

J - 00 j — 00 

这里的 p ( h ， 称为（多元分布） 密度函数 ，满足如下两个条件 

pUi ， … ， \) 彡 0 (3.2.9) 

f … f P(A ， …, 无 „)<^" 士 „ = 1 (3.2.10) 

J — 00 j — 00 

随机向量的概念在各个基础学科和工程技术中已有广泛应 
用.例如在量子力学中，粒子在某个区域 G 的出现是通过概率来 
描述的.若以 ( A 表示它的波函数，则1少1 2 即为密度函数，而 


/// I 必丨 2 d 欠 dydz 

就给岀该粒子在区域 G 出^的概率（也译作几率）. 

均勻分布和〃元正态分布是比较常见的两种多维连续型分布. 
[均勻分布] 若 G 为 R rt 中有限区域，其测度 5>0; 则由密度函数 


PU ， … ，， J= I，（〜•••，〜）〆 (3.2.11) 

[0 ， yX n ) e G 
给出的分布称为 C 上的均匀分布. 

在第一章几何概率一节中，我们已看到均勻分布的各种例子. 
[多元正态分布]若立= ( cr i ; ) 是 n 阶正定对称矩阵，以 
表示 I 的 逆阵； det 立表示之的行列式的值 ./t = 
( Ml ，…，是任意实值行向量,则由密度函数 

p ( x l 9 —, x n ) 


(2ir) T (det 之 )1 


exp{_ 4 ~X r jk( x r^j)( x k-^k)} 

L z j,k = i 


(3.2. 12) 
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定义的分布称为 /i 元正态分布，简记为 N { fjL y S ). 

这个密度函数也可以写成如下向量 形式： 

p(x)= -- rexp(3. 2. 13) 

(2tt) 丁 (detl) 了 I 2 J 

这里 U -/ t ) T 表示行向量 （ x - M ) 的转置. 

ri 元正态分布是最重要的一种多维分布，它在概率论、数理统 
计、随机过程论中都占有重要地位，具有许多重要性质.对于这些性 
质的叙述和证明，我们将在引进了更有力的工具后再进行.本章中 
我们将对它的特殊场合——二元正态分布逐步直接导岀这些性质. 

二、边际分布 


为方便起见，讨论将对二维场合进行，多维时这些结论仍然成立. 
先讨论离散型分布的场合，在这种场合，有关概念特别容易理解. 
考虑二维随机向量（^, ”），设 f 取值\，…； T ? 取值％ , 


: T ” …记 

=wr] =P( ， “y=l ， 2,… (3. 2. 14) 

尸|彡 =、•} =p l (x i ) , f=l ,2,… (3. 2. 15) 

P\v=yj \ =P2(y /) ， j= 1 ， 2 , … (3.2.16) 

显然 


p(x i9 yj) ^0, X P^ x i*y^ = 1 (3.2.17) 

此外，对固定的 L 11 

X p( x iyyj) = p \^ = x i\ =Pi( x i) (3.2.18) 

而对固定的 ）， 

X p( x iyyj) = p \v=yj\ =P 2 (y.j) (3.2. 19 ) 

换句话说， k 联合概率分布，对于固定的〖关于 y 求和得到 f 的概 
率 分布； 而对于固定的 y 关于 i 求和得到^的概率分布. 

这里 d = 1，2,…1 与 | p 2 ( y y ) , y = 1,2,… } 称为 ipOy 

y y ) ,^= l ,2,"*| 的边际分布或边缘分布.这个名称的含义通过下 
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列两例将看得很清楚. 

[例 1] 袋中装有2只白球及3只黑球.现进行有放回的摸 
球，定义下列随机变量 

Jl ， 第1次摸岀白球 _ jl ， 第2次摸出白球 

<第1次摸出黑球 第2次摸出黑球 

则 （6^) 的联合概率分布与边际分布由表 3. 2. 1给出. 


[例 2] 前例中若采用不放回摸球，则 （ fry ) 的联合概率分 
布及边际分布由表 3. 2.2 给出. 

表 3 . 2.1 有放回摸球的概率分布 表 3 . 2.2 不放回摸球的概率分布 



■ 

■ 


■ 

■ 

ih(y,) 


3 3 

T * T 

2 3 

T * T 


3 2 

T * T 

2 3 

■ ■ • — 

5 4 

B 


3 2 

T * T 

2.2 
T * T 


3 2 

T * T 

2 1 

- • 

5 4 

■ 


■ 

■ 


■ 

■ 

■ 


在上面两个表中，中间部分是的联合概率分布，而边 
沿部分是（及7；的概率分布，它们由联合分布经同一行或同一列 
的相加而得出来，这种表称为列 联表. 在列联表中 J 与的概率 
分布处于表的边沿部位，因此称为边际分布. 

让我们再注意一个重要事实，两例中 f 及 ry 的（边际）分布是 
相同的，但是它们的联合分布却完全不同.这里可以看岀联合分布 
不能由边际分布唯一确定，也就是说二维随机向量的性质并不能 
由它两个分量的个别性质来确定，这时还必须考虑它们之间的联 
系，这也说明了研究多维随机向量的作用. 

一般地，若 U ， v ) 是二维随机向量，其分布函数为 F ( x f y ) , 
我们能由 F(x 9 y) 得出 f 或”的分布函数.事实上， 

^i(^) = < + 00 I = F(X ，+ 00) 

(3.2. 20) 
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同理 

F 2 (y) = P\rj < y\ = F( + oo ,y) 

F ^ x ) 及 F 2 ( y ) 称为的边际分布函数. 

若/是连续型分布函数，有密度函数 p ( x ， y ), 那么 

X 00 

f'i(x) = I I p(u 9 y)dudy 

J -CD J - 0D 

因此心（幻是连续型分布函数,其密度函数为 


Pi(x) = ( p(x 9 y)dy 

J — 00 

同理 F 2 U ) 是连续型分布函数，其密度函数为 

P 2 (y) = [ p(x,y)dx 

J — QO 

p { ( x ) 及/> 2 (7)称为 p ( ty ) 的边际（分布）密度 函数. 
[二元正态分布]函数 


(3.2.21) 


P(x 9 y) 


1 


1 


2ttct 1 (T2 yl 

r ( x -/ O 2 


exp hu - 〆 ) 


X 


(T ^ 


~ P 

2 p ^ i ) lLr ^ A ^ y-^y 




2 

0*2 


(3. 2. 22) 

这里 Ml yCTi , a 2 ，p 为常数， Cl > 0 » cr 2 > o , I p I <1, 称为二 

元正态（分布）密度函数（图 3.2.3). 简记为 yV ( M , ,/ i 2 ,0^4 , P ). 

显然这是 n 元正态分布当 n = 2 时的特殊情况，相应的 

£ = 1^ P(T ^ 2 ) ，/ ^ = 

^ p ( T l O , 2 cr 2 / 

定理 3.2.1( 二元正态密度的典型分解）二元正态密度函数 

(3.2. 22) 具有如下两个分 解式： 

1 C 2 1 卜心2奇 *，））] 


p(x 9 y) 


V 2 


x - 


7T(7, 


y^TT a 2 J 1 -p 2 


2 <r|c l-p 2 ) 
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(3.2.23) 




图 3. 2. 3 二维正态密度曲面 


P ( x y y ) 


2 -2 


1 


卜(〜奇〜 ）■ 

2« rf ( 1- P 2 ) 


crj\-p 

(3.2.24) 

[ 证明]证明 （ 3. 2. 23) 式的关键在于将 （ 3. 2. 22) 表达式里 
方括号内的 ^^ 分解成 （1 -P 2 )^^+P 2 ^^, 并把系数 

0*1 CTj (T l 

和指数都分解成两部分，这样一来 

1 ( *-^1> 2 1 


p ( x 9 y ) 


(7j 


2«r ； X 


exp 




2(1-〆) 


P 


y^TT cr 2V /1 -p 2 

(欠- Mi ) 2 


2 

0*1 


_ 2p (” 0(y ， 2 _ ) +(y ， 2) i 


^ i ^2 

(*- M ,) : 


2o-2 X- 


2 

0*2 

1 


V / 2tt'c7* 1 V / 2it cr 2 y 1 -p 2 

_l_r 1^2 *-^i l 2 

i - P 2 ) L J 
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把第 2 个指数稍加整理，即得 （3. 2. 23). 

同理可证 （3. 2. 24). 于是定理证毕. 

这是完全对称的两个分解式，初看有些复杂，实质却十分简 
单，它是理解二元正态的关键，用途极多. 

首先，我们要指出下面两个重要 事实： 

(3. 2. 23) 右边第一部分为的密度函数，第二部分 

为 -〜） , c 7 2 2 ( l - p 2 )) 的密度函数. 

(3.2. 24) 右边第一部分为 / V ( M 2 ,4) 的密度函数，第二部分 


为 1- p 2 )) 的密度 函数. 

接着我们来计算二元正态的边际分布密度. 
由 （ 3.2.21) 和 （ 3.2. 23) 知 


Pi(x)= \ p(x 9 y)dy 

J — ao 






'* y/2TT (7 2 ^/ 1-p 2 


/心2令〜 ）] 

2< r ]( 1- P 2 ) dy 


I - V v I 

V27TCT, 

即 P , U ) 是 yv ( A ， d ) 的密度函数.同理 


Pi ( y ) 




y 2-7 Ti 


因此二元正态分布的边际分布仍为正态分布，这是一个重要的结论 • 
由 （3.2.22) 定义的显然非负，又由于 

广》 广》 1 (*-/*! ) 2 

p(x 9 y)dxdy = 


^/2 ttc 


2 <r 


T~ dx = l 


因此我们已顺带验证了 />( 心 y ) 确实是一个密度函数. 

对于〃维场合可以类似讨论其边际分布，值得提醒的是，对/ 
维分布而言,存在着 / I - 1维，2维，……，2维，1维的边际分布. 


• 150 • 




在二维场合，两个随机变量可以都是离散型的，也可以都是连 
续型的，上举例子都是 如此； 但是也可以一个是离散型的，另一个 
却是连续型的.进一步，也容易举出既非离散型又非连续型的例 
子，这时整个概率测度集中在一个不可列的一维点集上，因此也不 
存在密度函数.例如，若 f 〜 "[0,1], 令7； =#，则既非离散 
型又没有联合密度函数. 


三、条件分布 


对于多个随机事件可以讨论它们的条件概率，同样地，对于多 
个随机变量也可以讨论它们的条件分布，并由此得岀重要结果. 

仍对二维的场合进行讨论.也还是先从离散型开始，这时并无 
多大困难. 


若已知 f >0)，则事件|7；=1|的条件概率为 

=Xi ， T] =r y l p(x i 9 yj) 


p \v = yj 1 ^ = x i 


P \^ = x t \ 


Pl( x i) 


(3.2. 25) 


这式子定义了随机变量 77 关于随机变量 f 的条件分布.在一 
般情况下，它不同于 P 2 ( y y ) ，这表示从 f 的取值可以得出关于刀的 
部分信息，反之亦然. 


对于一般随机向量 （ f ^)， 我们也想定义条件分布函数 
p\v <yi f ，但是由于会出现 = M = 0 ,因此我们不能 
像 （3. 2. 25) 那样简单地定义. 


自然会想到可以用 

P | 7? < y I i = x\ = lim P I 7i < y I x ^ ^ < x + j\x | 

*■’ A*-»0 — ^ 

= lim P\x 彡 f < 戈 + Ax 9 T] < y\ 


!•_. F(x + A^,j) - F(x 9 y) 

丄 1 m T77 - - - - - — - r* 

Ax-^o F{x + Aa:, oo ) - F(x y oo ) 

(3.2. 26) 
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来定义. 

特别是对于有连续密度函数的场合，这定义导出 

(I p(u 9 v)dudv 

P\r) < y \ = lim - 

* I I p(a,v)dudv 

J x J -oo 

若把上式的分子分母分别除以 Ax ,再令 Aa ； — 0取极限，则当 
Pi ( x ) # 0时， 

f p(x 9 v)dv 


p\v < y 1 ^ = x\ 


Pl(x) 


p(x 9 v) 

Pl( x ) 


dv 


因此在给定 f = %的条件下， 7； 的分布密度函数为 

P ( x 9 y ) 


p(y I x) 


Pi( x ) 


同理可得在给定 77 = y 的条件下, f 的分布密度函数为 

p(x 9 y) 


p(x I y) 


Piiy ) 


(3.2. 27) 


(3.2. 28) 


这里当然也要求/> 2 (>0 #0. 

[例 3] 对由 （3.2.22) 定义的二元正态分布求条件密度函 
数 〆 7丨幻，由 (3.2.27) 及 （3.2. 23) 




( 从2 + 令 


< t -44 


)] 


2< r |< 


V2tt cr 2 ^/l - p 2 
从这里我们看到，二元正态分布的条件分布仍然是正态分布 


(3.2.29) 


/ V 卜 2 ~^ x - Mi ) 1 - P 2 ) ) (3.2.30) 

特别指出，这里 M = A 是％的线性函数，这个 

^1 

结论在一些统计问题中很重要. 

到此，二元正态密度典型分解式 （3. 2. 23) 的涵义完全清 楚了: 
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第一部分是边际密度 A (幻，第二部分则是条件密度 p ( yk ) ，整个 
式子不过是= /^ ( x ) p(y 1幻的一个特例. （3. 2. 24) 则是 
P(x 9 y) = p 2 (y)p(x\y) 的特例.弄明白这个道理，贝 lj 此二式甚易记忆. 

四、随机变置的独立性 


在上章中，我们看到随机事件的独立性起着很大的作用.下面 
研究随机变量的独立性.引人如下定义. 

定义 3.2.3 设…,为个随机变量，若对于任意的 
^1，…，&成立 

<%1，…，匕 < X n \ = P \^l <〜1...户11 < I 

(3.2.31) 

则称…，匕是相互独立的 • 

若（的分布函数为厂(幻，〖=1，2,…，〜它们的联合分布函数 
为厂(〜，…，\)，则 （3. 2. 31) 等价于对一切成立 

厂 ( 戈1， … ，气 ） = F i( x i ) … \(\) (3. 2. 32) 

在这种场合，由每个随机变量的（边际）分布函数可以唯一地 
确定联合分布函数.而且由 （ 3. 2. 26) 可以看到，这时条件分布化 
为无条件分布 

P\V <y\ f =幻 =PU < y | (3.2.33) 

即由 f 的取值不能得出任何关于 7/ 的信息. 

对于离散型随机变量， （3. 2. 31) 等价于对任何一组可能取的 
值 （' ，…，\)成立 

P l^l = P Hl =^1 ( = X n \ 

(3.2. 34) 

例 1 中有放回摸球时的 f 与 t ; 是相互独立的，这时联合分布 
取乘法表的 形式; 例2中的 f 与77不是独立的. 

这些例子也说明，两个有相同分布的随机变量可以是独立的， 
也可以不是独立的. 

对于连续型随机变量，条件 （3. 2. 31 ) 的等价形式是对'，…， 
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&几乎处处成立 

P (龙1,…，\) =^ 1 (^ 1 ) …凡 (3. 2. 35) 
这里 〆 义， … ，〜） 是联合分布密度函数，而;^(\)，/ = 1,2，一，/1是 
各随机变量的密度函数. 


[例 4] 对由 （3. 2. 22) 定义的二元正态分布，有 


Pi(x)p 2 (y) 


-exp 


一芦 I) 2 (j 一芦 2 ) 


l^a,a 2 * I 2(7 ； 2o-2 

与 （3.2.22) 比较可知，使关系式 （3. 2. 35) 成立的充要条件是 


p = 0 

即服从二元正态分布的随机变量独立的充要条件是0 = 0,这时条 
件分布 （3. 2. 29) 化为 


p(y I x ) = — e 2.2 = p 2 ( y ) 

V 2- TTCT 2 

这与 （3.2.33) 是一致的. 

[例 5] 若 （ fry ) 服从 G = | (%, y ) 上的均 

匀分布，即其联合密度函数为 


1 


. $ x $ b , c ^ y^d 


〆 ¥)=(“)（“），…、”一… (3.2.36) 
0 其他 

则 f 〜 U [ a 9 b ] 9 V - U [ c 9 d ] ，且它们相互 独立. （图 3. 2. 4) 

反之，若 f 与7/相互独立，且 
叭^6],7；〜"[(^],则（67；)服从6 
上均勻分布，密度函数为 （3. 2. 36). 

均勻分布为几何概率提供了精 
确的概率论语言.例如第一章§4中 
的几个例子都有均匀分布的假定. 

在会面问题的解法中事实上假 
定了两人的到达时刻是相互独立的， 

而且都服从 ^[0,60]. 



图 3. 2. 4二维均勻分布 
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蒲丰投针问题中假定 ^ t /[0, y ] 9 < p - f /[0, ir ] ，且它们相 

互独立，这些假定的适合性很难确证,但诸多试验结果表明它们近 
似成立. 

蒙特卡罗积分计算则要求产生#对独立的随机向量 Q , 7/ ) ，其中 
卜 U [ a 9 b ] 9 rj - U [0, M ] ，且它们相互独立，这在近代计算机中不难 
实现 

上面我们列举了随机变量独立性的各种表达形式，有些是对 
一般随机变量成立的，有些只对离散型或连续型才成立 ，一 般说 
来，这些条件比较易于验证.下面我们介绍另外一个条件，这条件 
不易验证，但在理论研究中有用. 

随机变量 U 2 ，…，匕相互独立的充要条件是对一切一维博 
雷尔点集七，4,…，人成立 

P|f, e ,^ 2 e A 29 e A n \ 

= P\^ e A x \P\^ 2 e A 2 \-P\^ n e AJ (3.2.37) 

论断的证明要用到测度论，已超出本课程范围. 

当然也可以建立/ I 维随机向量 f 与 m 维随机向量 17 相互独 
立的概念，这时要求成立 

p\€ e A fV E Bj =P\i G A\P\n G B\ 

其中分别是任意一个 n 维及; n 维的博雷尔点集. 

显然若 €与” 独立，则 f 的子向量与1?的子向量是独立的. 

此外，注意到若 U 2 ，…，匕相互独立，则其中的任意 r(2 $ 
r < n) 个随机变量也相互独立.例如，我们证明 U 2 ，…，匕相 
互 独立. 

< X n-l ! 

二 < 〜，•••，《“< < 00 ( 

= P Ul < X l l …尸 -丨 < X n - l\ P \^n < 00 ( 

= p \ii < I 

最后，称无穷多个随机变量是相互独立的，如果其中任意有限 
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多个随机变量都是相互独立的. 

随机变量的独立性概念是概率论中最基本的概念之一，也是 
最重要的概念之一，关于独立随机变量的研究构成了概率论的重 
要课题，我们将在第五章中介绍一些基本结果. 

+ 五、正态分布的导出 

正态分布在概率论和数理统计中处于核心地位.它最初作为 
二项分布计算的渐近公式由棣莫弗引进，后被拉普拉斯发展成系 
统的理论（见第五章）.但把它作为一个分布来研究则归功于高斯 
( Gauss , 1777—1855)，他在19世纪初的测量误差研究中导岀的误 
差函数，后被高尔顿命名为正态分布.因此，正态分布又称高斯分 
布.这项研究又是当代统计学中重要思想——最大似然法的源头. 
在学过多维随机变量和独立性之后，可作如下介绍. 

在测量中，若 M 为真值，义为观察值，而误差^的分布密度 
函数为经验表明 〆 ％)关于％ = 0对称，而且对一 切无成 
立 〆 幻 >0.为推导方便起见，还假设 ;>( 幻具有连续导函数. 

如果有独立同分布的观察值义，1 2 ,…，&，则其似然函数为 

L ( fi )= fl 它表征了这组观察值落在 M 的附近的可能 

i = 1 

性的大小•高斯的假定 是：观 察值的平均值…+\)作 

n 

为未知参数 m 的估值使达到最大. 

下面利用这个假定导出正态分布. 

若$使似然函数 MM ) 达到最大，则 

=0 (3.2.38) 

^ dlnp ( x ) =g(x) ，则 g (幻 = ，由假设知道它好定义而 
且是连续函数.这时 （3. 2. 38) 变成 
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(3.2.39) 


X 豸(〜-无 ） =0 
i = 1 

当 n = 2 时，方程 （3.2. 39) 化为 

(戈 2 一无 ) =0 

由于 x l -x = -( x 2 - x ) ，以及' ，心的 任意性得到 g (- x )= - g (幻对一 
切实数 X 成立. 

当^1 = 3时，方程 （3.2. 29) 化为 

g ('- 无） +g(x 2 -x) +g(x 3 -x) =0 
由于 $ = -[( a : 2 - 幻 ^( x 2 - x )] ，可知对一切实数成立 

g ( x )+ g ( y ) = g ( x + y ) (3.2.40) 

这是柯西函数方程，很容易证明其解必为 gU )= 心. 

事实上，若记 / U )= 〆 '则 方程 （3.2.40) 化为 

/(^)/( j )=/(^+ j ) (3.2.41) 

这方程对一切心 y 成立，且/(幻是连续函数，因此由引理 2. 4. 1知 
f ( x )= a ， aX )， 从而得知 

g ( x)=bx 

因此 


In 


p ( x ) = y x2+c 


p(x)=e^ x2+c , -00 <^< + 00 

pU ) 为密度函数，因此 6<0, 记 6 = ，则 


p(x) = Ke 


-00 <^<+00 


由规范化条件 f p(^)(k = i 知 k = 9 iX 


p(x) 


^/2 rrc 




-00 <^< + 00 


这就是著名的误差函数，即正态分布密度函数. 


• 157 - 



§3. 随机变量的函数及其分布 


一、 博雷尔函数与随 机变置 的函数 

在许多问题中需要计算随机变量的函数的分布律，例如在统 

计物理中，已知分子运动速度 f 的分布，要求其动能 = 的 

分布律.这类问题既普遍而又重要，接下来我们就要讨论它. 

这类问题较为一般的提法 是:若 f 是随机变量，求7； = g ( f ) 的 
分布律. 

为了使7；有分布律可言，当然要求7；是随机变量，因此对函数 
y=g(x) 也必须有一定的要求，为此我们提岀如下定义. 

定义 3.3.1 设 7 =€(幻是 R 1 到 R 1 上的一个映照，若对于一 
切 R 1 中的博雷尔点集 A 均有 

\x ： g{x) G i ?! | e (3. 3. 1 ) 

其中^^为化上博雷尔 (7 域，则称 g (幻是一元 博雷尔 （可 测）函数. 

博雷尔函数是很广泛的一类函数，我们所碰到的大部分函数 
都是博雷尔函数，特别地，已知所有的连续函数及单调函数都是博 
雷尔函数. 

若 f 是概率空间（/2,夂 P ) 上的随机变量，而 gU ) 是一元博 
雷尔函数，则 g ( f ) 是上的随机变量.事实上，对一切 A 
e 界有 

\ o )： g (^(( o ) ) G 5, I = \( o ：^{( o ) e ) I e 

(3.3.2) 

这里 lx ： g(x) e A 丨 ，由 （3.3.1) 知它是一维博雷尔点 
集，再根据随机变量定义中的 （3. 1. 1) 式即得 （3.3.2). 

有时，我们还要考虑随机向量的函数，例如7；=匕+匕就是随 
机向量 （ U 2 ) 的函数 .一 般地，要研究 = g (6, …， 及其分 
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布. 这时对 n 元函数 y = g ( x l 9 - 9 x n ) 也要有相应的 要求. 

定义 3.3.2 设 (叼， •••，&)是 IT 到 R 1 上的一个映照， 

若对一切 R 1 中的博雷尔点集 A 均有 

I (^i »*•* ,x n ) : ,..w) e A | e 及 （ 3.3.3) 

其中及为 R n 上博雷尔 a 域，则称奴巧，…，\ ) 为 /i 元博雷尔（可 

测）函数 • 

同样地，若 （& ，… ，6) 是（仏夂尸）上的随机向量，而 
，…，\)是 n 元博雷尔函数，则，…，匕）是 （/2，％ P ) 上的 
随机变量. 


这个事实证明 如下： 

\(o : g(O) ， … y^ n ((o) ) eB { \ 

=\(0 : (f ( 仞） ，… yin(o)) ) eg~\B l )je^ (3. 3. 4) 

其中 ， U R ) 是 （3. 3. 3) 中点集，它是〃维博雷尔点集，而按 
(3. 2. 3) 即得最后的关系式. 

更一般地，还可以研究 a 维随机向量… ，匕） 的肌个函数 
，… D ，… ，客 m(f ，…， U ，这里 A ，…，“都是元博雷尔 
函数，这是一个 m 维随机向量，需要求岀它们的分布. 

一般地来说,对于离散型随机变量，求它的函数的分布并不很 
困难.例 如：若 f 的分布列为 



x \ 

X 2 

… 

X n 

… 

p 

Pi 

Pi 

… 

Pn 

… 


则奴 f ) 的分布列可由下法得到，列出 


g(S) 

g(^) 

g(x 2 ) 

… … 

P 

Pi 

Pi 

… Pn … 


(3.3.5) 


当然这里可能有某些 gUJ 相等，把它们作适当并项即可. 

[离散卷积公式]若 f 与 t ; 是相互独立的随机变量，它们都 
取非负整数值，其概率分布分别为丨及 I \丨，下面我们来计算 
随机变量 i =^ v 的概率分布.因为 
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\^ = r\ = \i = 0 9 T] = r\ +|^=1 ,77 = r-l ( + … 

+ l^ = r ^ = °( 

利用独立性的假定得到 

c r =^ l ^ = r l = a ( A + a A - if . + a A，r = 0 ,l ,2, ••- (3.3.6) 

这就是求独立随机变量和的分布的公式—— 离散卷积公式. 

下面的讨论主要对连续型随机变量进行.我们将由简到繁逐 
步深人. 

二、单个随机变置的函数的分布律 

这里的一般问 题是： 已知随机变量 f 的分布函数 F (幻或密度 
函数 P (幻，要求的分布函数 G ( y ) 或密度函数 g ( y ). 

由 （3.1.29) 可知 

G(y)=P{ V <y}=P{g(^<y} 

= J p(x)dx (3.3.7) 

«•(*) <y 

上述积分计算的难易既与被积函数即 f 的密度函数 />( 幻的 
表达式有关,更与积分区域的形状相关，差别很大，因 
此这类问题通常采用个案处理的方式，但在方法上大体可分为直 
接法与变换法两类. 

直接法通过把 u ( f )< d 直接化为关于 f 的等价事件而求得 
v 的分布函数或密度函数. 

当 gU ) 为单调函数时，问题相当简单.例如当 ku ) 严格单调 
上升时， 

G(y)= P{ v <y} =P{gU)<y} 

=P{^<g~ ] (r)}= F (g~ l (y)) 

[例 1] 若随机变量 f 有密度函数 pU ), 而 7? =4+6,这里 
a #0 .求7；的密度函数 g ( y ). 

[解]分别记 专与 V 的分布函数为 F (幻及 G(y) ，显然有 
G(y)= P\r]<y\ =P\a^-¥b<y\ 
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Fi 


y- 


a 


1 一 F| 


r 


a 


因此 

qiy ) 

或统一起来，写成 


'y 


a 

<y 


若 a >0 
，若 a <0 

若 a > 0 
若 a < 0 


a 


q ( j ) 


- P \ 


'y 


a 


(3.3. 8) 


把例 1 的结果应用到正态分布的场合.若 f 服从，则 


的密度函数 

CT 

"( z + f )- H 2 i 1 

2 cr 2 J 

即 （ 服从 #(0,1) ,这是我们早已提到过的. 

[例 2] 若卜 yv ( M ， 2 )， 求的密度函数. 

[解]当 y >0 时， 

P{v<y} =P{^<y} =P{^<in j} 

r ln y 1 _( x-u'i 2 

= — — e~ 2 ^ 2 dx 

)-® y2Tr cr 

所以， 7； 的密度函数为 

1 (In y - n ) 2 

q ( y ) = -= — e ~ 2a 2 ， r >0. (3.3.9) 

V2tt(7-j 

V 的对数即 In v = i 服从正态分布，故称 7? 所服从的分布为对 
数正态分布. 

对数正态变量取非负值，又能通过正态分布进行概率计算，很 
适合做某些现象的数学模型. 


g(z) = a • - exp 
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当代金融学用对数正态分布取代正态分布作为资产价格分布 
建立起了十分漂亮而合理的理论.另外，销售量，元件寿命等也已 
普遍使用对数正态分布作为模型.这个分布的重要性正在提高. 
显然，上述做法可推广到 gU ) 分段单调的场合. 

[例 3] 若（~#(0,1)，求77 = <的密度函数. 

[解]当 时， G (: r )= = 0,显然，此时 g ( y )= 0. 

当 y >0, 

G ( y )= P \ rj < y \ = P |^ 2 < y | = P | -4 y < C <^ fy \ 

= f -^—e-^dx = 2^ -^—e-^dx 
』 -Vy V^7T Jo v / 2tt 

因此 77 = f 的密度函数为 

q ( y ) = ―-— y _ T e _ 十， y >0 (3.3.10) 

顺便指出， （3.3. 10) 是下列分布当 7 i = l 时的特例. 

[/ 分布]具有密度函数 

p ( x ) = --- x T ~ l e ~ T , x >0 (3.3.11) 

2 ’(皆） 

的分布称为具有自由度 n 的; T 2 分布. 

/分布在数理统计中有重要应用.与 （3. 1. 49) 中的 r 分布比 

较，我们就可以知道/分布是它的特例，其中取 r = y,A = y , 即为 

. 以后简记 f 服从自 由度打 的; r 2 分布为6 
下例处理更为一般的场合. 

[例 4] 若 f 为连续型随机变量，其分布密度为 pU ), 求77 = 
sin ^的 分布. 

[解] EG ( y )= PUinf < yl . 当 时， G ( y )=0, 当 y>l 

时， G ( y )= l . 当 -UySl 时（图3.3.1)， 

G ( y )= P | sin ^< y \ 


• 162 - 



= 2 P| 2A ： it-( i7+sin _1 y) ^^<2A ： i7+sin _, y j 



变换法利用积分的变数代换，对密度函数得到一般的计算公式. 
这时对函数有较强的要求，但其结果可推广到多维场合，因此是 
较为有力的方法.下面仍依单调与分段单调两种情况进行讨论. 

若《为连续型随机变量，其密度函数为 PU ), 而对 
其密度函数 7(7) 有如下 结果： 

(1 ) 若严格单调，其反函数 fUy ) 有连续导函数，则 
是具有密度函数① 

p[g~ l (y) ] • [^" l (r) ] 'I ( 3 . 3 . 12 ) 

的连续型随机变量. 

[证明]对于任一实数 a , 记使 g(x) <a 成立的％的值的范 
围为五 （ a )， 则 

P\v <a \ = p \g(^)<^\ =P\^ E(a) I 

= f p ( x ) dx = f p[g' l (r)J i[^ _ 1 (r)] ,,d r 

J E(a) J -ac 

这里用了积分的变数代换.由上式知道 W 为连续型随机变量，其 
密度函数为 （3.3. 12). 

显然可利用这个结果直接计算例1及例2 中的密度函数.下 


①这里和下面都约定，对使反函数无意义的; K ， 密度函数定义为 0. 
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面是另一个例子. 

[例 5] 若0服从的均匀分布，少 =tg 0,试求分的 
密度函数 9(7). 

[解 ] Ey = tg %，则 x = = 因此由 （3. 3. 12) 知 

ay 1 +y 

q ( y ) = — - . --- 2 -> " 00 < r < 00 (3.3.13) 

IT 1 + y 

由 （3. 3. 13) 定义的分布称为柯 西分布 ，它是概率论中有名的分布 
之~^ 

(2) 若 g (幻在不相重叠的区间 / M / 2 ，…上逐段严格单调，其 
反函数分别为 h x { y ) , A 2 ( y ) ,…而且 h \( y ) ，/ i ' 2 ( y ) ，…均为连续函 
数，那么 = 是连续型随机变量，其密度函数为 

p[^i(y) ] \h\{y) \^p[h 2 (y) ] \h f 2 (y ) 丨 + … (3.3. 14) 
[证明]给定实数 a , 以 K ( a ) 记厂中使 g ( x )< a 成立的％的 
集合，显然诸仏 U ) 不相交，而 

P\rj <a \ = p \g(^) < a \ = E i^ a ) } 

i 



J J - cc 

=f X ] ^ h ， i(y) ,d r 

— OD 

因此^是具有密度函数 （3. 3. 14) 的连续型随机变量. 

这结果包含了单调的场合 （3. 3. 12) ，此外，它也可以用于例3 
及例4,并得出相同答案. 

这里，我们要再提到一个有趣而重要的事实. 

[均勻分布的特殊地位]若随机变量 f 的分布函数为 FU ), 
因为 FU ) 是非降函数，对任意0<_1,可定义 

F~ l (y)= inf I x - F(x) >y\ 
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(3. 3. 15) 



作为 FU ) 的反函数. 

下面考察随机变量的分布，这里 FU ) 是连续函数. 
P \6< x \ = P \ F (^)< x \ 

= P \^< F -\ x ) I = F ( F -\ x))=x (3.3. 16) 

即 0 = 服从 [0,1] 均勻分布.这个结论在统计中起重要作用. 

反之，若0服从 [0,1] 均匀分布，对任意分布函数 FU ) ，令 

^ = r l (0) (3.3. 17) 

则 

p \^< x \ = p \ r l ( e )< x \ = p \ e < F ( x ) ( = f ( x ) 

因此 f 是服从分布函数 F ( x ) 的随机变量. 

这样，只要我们能产生 [0,1] 中均匀分布的随机变量的样本 
(观察值），那么我们也就能通过 （3. 3. 17) 产生分布函数为 F ( x ) 
的随机变量的样本，这结论在蒙特卡罗方法中具有基本的重要 
性.通常的做法是利用数学或物理的方法产生[0，1]中均勻分布 
随机变量的样本（称为均匀分布随机数），再利用变换 （3. 3. 17) 得 
到任意分布的随机数. 

^随 机变置 的存在性定理 利用上述结果，我们可以给下面 
定理一个构造性的证明. 

定理 3.3.1 若 F (幻是左连续的单调不减函数，且 F(-oo ) 
= 0， F ( + oo )= 1，则存在一个概率空间 （/2，. gP ) 及其上的随机变 
量 6 U ) ，使 fU ) 的分布函数正好是 FU ). 

[证明]取 [0 ,1], 再取为[0 ，1]中博雷尔点集全体， 
而 P 取为直线上的勒贝格测度（它是长度概念的推广，但对一切 
博雷尔点集都有定义）.定义则奴 W 是 （/2，， P ) 上的 
随机变量，又对一切 

P \6( o )) <x \ = P\co e [0,^) 1 =x 
因此服从 [0 ,1] 上均匀分布. 

再利用 （3. 3. 15) 定义 F ~ l ( y ) 9 当然它也是单调函数，从而是 


• 165 • 



博雷尔函数，令 

^(a))= F~\e(a ))) 

则是（/2,夂 P ) 上的随机变量，而且仿上段讨论可知，它的分 
布函数正好是 FU ). 

三、随机向置的函数的分布律 

若…，么），而 （ A ，…， 6) 的密度函数为 〆 '，•••， 
x n ) ，则同上面一样讨论可以得到 

G ( y ) = P\tj < y \ =卜 / > Oi ， … ，欠 n ) 

豸 Ui， … .*«) <y 

(3.3. 18) 

我们看一些例子. 

[和的分布]若77=^+匕，而 （ K 2 ) 的密度函数为 pU , 

龙 2 ) ， 则 

G(y) = P| 77 < r! = J JP( x i 9 x 2 )< 1 x^x 2 

* i +* 2<r 

=f f p { x x , x 2 ) d ^ 2 (3.3.19) 

J — os J — 00 

特别当 U 2 相互独立时，有 p ( x x 9 x 2 ) = p l ( x l ) p 2 ( x 2 ) ，这里 /) 〆 & ) 
为 f 的密度函数， P 2 U 2 ) 为“ 的密度函数.代人 (3. 3. 19) 得 

G ( y )= f [| Pi ( x l ) p 2 ( x 2 ) dx 2 ] dx { 

= J [| PiiXi )p 2 (z-x l )dz^ dx x 
=f f [ Pi(x l )p 2 (z-x l )dx l dz 

J — 00 L J ^ ao 

因此 7； 的密度函数为 

q ( y ) = f Pi (^) p 2 (y - u ) du (3.3.20) 

J — 00 

也可写为 
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Q(y) 


Pi(y - u)p 2 (u)du 


( 3 . 3 . 21 ) 


(3.3. 20) 或 （3. 3. 21) 称为卷积公式，在概率论中相当重要. 


[商的分布] 若乃= f 1 ， 而 ( K 2 ) 的密度函数为 />(. w 2 ) ，则 

S 2 

G ⑷ = P\rj < x\ = P|— < a;| = I 9 x 2 ) (1x^X2 

1彡2 J * i /*2 <* 

= /。[/ P^y^ z ^y\ dz + / ^ [I p(y^)dy\ dz 


(3.3.22) 

的密度函数为 

r* r° 

q ( x )= p(zx , z ) zdz - I p(zx 9 z)zdz 

J 0 J -00 

=f \ z \ p(zx f z ) dz (3.3.23) 

J 一 ac 

# [关于顺序统计量的若干分布]若…，么是相互独 
立的随机变量，具有相同的分布函数 F (幻和密度函数 P U ), 而 
C 及^相当于把匕，…按大小顺序重新排列为 

以；彡… 0.3.24) 
的末项及首项，它们在统计中有重要应用.下面讨论几种与它们有 
关的分布. 

首先求极大值 C 的分布函数， 

p I in <x ! =P|max(4 r 1 ，彡 2 ，一 ,0< 太 } 

=尸1蒼1<欠，彡2〈龙，… 9 L < X \ 

= P \^< x \ • P\^ 2 <x \ -' P \^ n < x \ 

= [ F ( x)] n (3.3.25) 

其次求极小值 f 的分布函数，注意到 

p \ii = 尸 | min(H.D 彡龙 | 

= P |& ^ x 9 ^ 2 ^ x 9 — 9 ^ n ^ x \ 
- P \^^ x \ P \^ 2 ^ x \ — P \^ n ^ x \ 
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因此 


=[i-F(x)y 


P\^ x < x \ =1 - [l - F ( x)] n (3.3.26) 

值得提醒， （3. 3. 26) 式的导出，是公式 （2. 2. 6) 的生动应用. 
进一步，讨论 （ G ) 的联合分布. 

记 G ( x 9 y )= P \^* < x 9 ^* < y \. 

若 

G ( x 9 y )= P \^* < x ,^ < y \ 

= P \^：< y \=[ F ( y)] n (3.3.27) 

若 x < y ， 则 

G ( x , y ) = P \^* < x 9 ^* < y \ 

<r! -尸 If < y \ 

= [ F ( y ) r -[ F ( y )- F ( x)] n (3.3.28) 

其联合密度函数为 
心， = { °， 

U(n - 1 )[ F ( y ) - F ( x ) ] n 2 p ( x ) p ( y ) 9 x < y 

(3.3.29) 

最后，我们来求极差的分布密度函数 A ( r )， 显然 
对 r 彡 0, f R ( r ) = 0,若 r > 0,则 

P \ R<r \ = JJ q ( x , y ) dxdy 

y-x <r 

=I [| q ( x 9 y ) dy ^ dx 


g ( x 9 y )= 


(3.3.28) 


x ^ y 




[f q(x 9 x+z)dz dx 

—CO t ~ OD 

丨 f q(x 9 x+z) d^l dz 

— OC L •/ — QD j 


因此 


f R ( r ) 


q(x 9 x -\- r ) dx 



= n ( n-l ) f [ F ( x + r ) - F ( x ) ] n ~ 2 x 

J — oo 

p ( x ) p ( x + r ) dx (3.3.30) 

极值分布在统计中常被用到.在实际应用中，极值分布与“百 
年一遇”等概念经常岀现在灾害性天气预报中，例如暴雨，洪水预 
报，以及水库、桥梁等大型工程建筑规范中. 

四、随机向置的变换 


若(彡1，…，彡 J 的密度函数为 pUi ，…，〜），求仏…， 
D ，…， Vm = gm(fl ，… ，匕）的分布.这时有 

，."，：)0=尸 I ” 〆 ％ ，…， nl 




•••f P (\ ， … ，尤 Jdyd^ 


<y\ 


^«(*i ，…， * n ) <y m 

(3.3.31) 

显然，这是最一般的场合.当 m = l 时便是随机向量的函数的 
情形，当 m = 〃= l 时得到单个随机变量的函数的情形.下面考虑另 
一个重要的特殊情形，即当 （ f ，…，么）与有一一对应 
变换关系时，当然这时 〃 必须成立. 

如果对 : Ki =仏（心，…，\) , i = 1，2,…，存在唯一的反函数 
\(: Ki , O = \ ( i = 1，…， n ) ,而且 （化 ，…，^)的密度函数为 
，…， yj ，那么 

，…， h ) = ，…，〜)(!〜…(^ (3. 3. 32) 

“1 <y\ 


比较 m = n 时的 （3. 3. 31) 与 （3. 3. 32) 可知 

，…， yJ 

\ p ( x i ( yi ，…，，…人(％，…， yj ) 1几若 ( yi , …,属于尽的值域 
= 1 0, 其他 


(3.3.33) 
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其中 / 为坐标变换的雅可比行列式 


dx { 

dx x 

• 

• 

^y n 

參 

• 

8 x n . 

^ X n 


dy n 


(3.3.34) 


这里，我们假定上述偏导数存在而且连续. 

公式 (3. 3. 33) 对应于单变量场合的公式 （3. 3. 12) ，也可以导岀 
对应于公式 (3. 3. 14) 的多变量场合的公式，这留给读者作为练习. 
[例 6] 若⑷，心）的密度函数为 />(〜 ，七），而 

Vl =0(2 
y 2 = c ^ 1 + d ^ 2 

a 1 


(3.3.35) 


这里 A 


c d 

[解]在本例中 


/0,试求（％，77 2 )的密度函数 , y 2 ). 


因此 


yi=g\(x l ,x 2 )=ax l -i-bx 29 
9 x 2 ) = cx^dx 2 


d b c a 

H” 〜 = W 2 


! _b_ 

~K 

a 

~K 


ad - be 
~ A 1- 


ad - be 


最后得到 


^(ji ,y 2 ) 


/ d b c a 

P \1^ 一 ~T ri + X r2 J 


(3.3.36) 


I ad - be \ 

[例 7] 若 f 与 7； 相互独立，分别服从自由度为 m 和/ I 的/ 
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分布，试求 a =^7] 与 P = i 的密度函数 q ( u 9 v ). 

7] m 

[解]由题设据 （3.3. 11) 知 77) 的联合密度函数为 

P ( x , y ) = — ~~- ― - ― -~~ 号 _1 y 十 _1 e _ 宁 

2 ^(f) r (f) 

当龙>0 , y >0. 

对 u >0, t ;>0 作变换 u = x ^ y 9 v = — • A ， 其逆变换为 

y m 

muv nu 

x= - , y= - . 


由于 


因此 


du 

du 


dx 

dy 


dv 

dv 


dx 

dy 


n 

( 1+ T 

m 


u 


n 

yrn 
2 


y m 


n ( x + y ) 

2~~ 
my 


171 = 


m 


n 


u 


1 + 觅 


m \ 
—— v 
n I 


于是 （ a , 月）的联合分布密度函数为 

1 




2 ~T 


(f) r (y 


(fP 


--2 


m 


x - 


m 


u 


1 + ! 


m \ 
— v 
n / 


--2 n 


l + ^t 

n 


2~r 


I m-¥n \ 

l 了 J 


-u 1 e 


2 
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(3.3.37) 


r (y) r (y) * ( 1+ ?) 

因此， a 与 卢 独立，而且 a 服从自由度为 m ^ n 的/分布.这揭 
示了; T 2 分布的一个重要性质:若两个相互独立的; T 2 分布随机变量 
6与 I 它们各具有自由度 m 及；1，则其和 f + w 服从自由度为 m+n 
的/分布，这个性质称为/分布的可加性，简记作 

xi *xl =xLn (3.3.38) 

利用例3的结果和这里证明了的;^分布的可加性，不难给岀 
/分布的一种推导.事实上，;^分布是作为 n 个相互独立的标准正 
态变量的平方和的分布而命名的，明白这点之后，会觉得关于它的 
那些结论都是相当自然的分布的直接推导见习题 37. 


随机变量 A 


的 密度函数为 


f(x ； m 9 n)=\ p/ 


1 H - > 


(3.3.39) 


这个分布称为 F 分布 ，是数理统计中重要分布之一. 

在讨论随机向量的变换中，着重研究有——对应变换的情况 
是很自然的.如果则当（匕，…，匕）有密度函数时，（％，•••， 
不会有密度函数存在，不能深人讨论.但是当 m < n 时，则有可 
能利用变换法，关键是增补变量，使之成为一一对应的情况. 

在上一小节讨论随机向量的函数的分布律中，主要只讲直接 
法，下面我们通过一个例子来说明在这种场合如何通过增补变量 
使用变换法. 

[例 8] 设 f 7；为两个独立随机变量 J 服从 ^(0,1),77 服从 
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自由度为 n 的; t 2 分布 (3. 3. 11) ，令试求 r 的密度函数. 

[解]为求得 r 的密度函数，引进增补变量5 = 77,先求 （S， 
r ) 的联合密度函数. 

相互独立，故 （ f ,77) 的联合密度函数为 

1 \ -上 

p(x r y)= e^~ • - j T " e_ 2 , -oo <x<cc , y>0 

\/2tt 2 n/2 T I — j 

变换 s = 的逆变换为％ = “丄 ) 1/2 ，y = s ， 其雅可比行列式 



• 173 • 



密度函数 



ri 


t(x ； Tl) 


n + 1' 


hi )/2 


人 1 

— +1 


Mi) 

称为自由度为〃的〖分布，它是数理统计中另一重要分布. 


(3.3.40) 


五、随机变置的函数的独立性 


首先证明一个定理. 

定理 3. 3. 2 若 f …，匕是相互独立的随机变量，则 
/,(&)，…，入 (6) 也是相互独立的，这里 / A = l ，•••，）是任意的一 
元博雷尔函数. 

[证明]对任意的一维博雷尔点集枣，…，炎有 
P \ fxU \) E 次 ，…， /D ^ A a \ 

=P\^ Eyran ^r ： (A n )\ 

^r ： {A,)\-p\^ n Bf n \A n )\ 

=P\AU l )^A l \^p\f n u n )^K\ 

定理的结论在直观上是明显的，但在定理的证明中却要两次 
用到未证明的论断 （3. 2. 37) ，其中第一次用来指明对 f ，…，^的 
有关概率可以化为乘积的形式，另一次用来说明最后的等式表明 
/,(&)，… ，人 (么）是相互独立的，且第一次是难以避免的. 

这个结果可以推广到随机向量的场合. 

例7说明，即使由相同的随机向量构成的不同函数也可能是独立 
的，这种情况在概率论与数理统计中相当重要，下面再讨论一些例子. 
[例 9] 若 f 与7；是相互独立的随机变量，均服从 7 V (0，1)， 

试证化为极坐标后， p = \/( 2 +” 2 与 <P = arctg I ( < p 取值于 [ 0 ， 
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故 ( p ， p ) 的密度函数为 




-(x 2 +y 2 )/2 


re _r/2 ， r 彡 0 ， 0 彡沒彡 2tt 


即 p = v / ?^7 _ 的密度函数为 

r -r 2 /2 

R(r) = \ re 

lo ， 

这个分布称为瑞利 （ Rayleigh ) 分布 • 


(3.3.41) 


而 p = arctgf 服从[0,2贯]中的均勻分布，并且 p 与史是独立的. 

这个结果常被用来产生服从正态分布的随机数.做法如 下：产 
生相互独立的[0，1]均勻分布的随机数 

f = ( -21 n Uy ) T cos 2ttU 2 

(3 3 42) 

77 = (-2111 f/J^sin 2 ttU 2 • • 

则 f 与 77 是相互独立的 yv( 0 ,l) 随机数. 

这样做法的理由让读者自行论证. 

[例 10] 若 ( H ) 服从二元正态分布 （3. 2. 22) ，其中〜= 
/ x 2 = 0.令 


2 ir ])， 是相互独立的. 

[解]采用极坐标， ％ = rcos 0 9 y = rsin 0，因此 r = ^/ x 2 + y 2 ,6 = 
arctgl ， 因为 （f ， ry ) 的密度函数为 

X 
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rh = cos a + ^ 2 sin a, t] 2 = - sin a + f 2 cos a 

这里 0< a $2 TT ， 是某个角度.我们来求 （&，&) 的密度函数 

分 （ u ， v). 

这里可直接用例6的结果.其中1，因此 
q( u ， v) = p( ucos a-vsin a，usin a+t^cos a) 


1 


2Ttcr 1 a ， 2v / l 


-P 


: expj ~2 ( 1 -p 2 ) ( 如 2 ~ 2Buv+Ct，2 ^ 


(3.3.43) 


其中 


A 


cos 


2 

0*1 


-2 P 


cos asm 


sin 


2 


„ cos asm a 
B = - 2 - P 


^ 2 <T 2 

• 2 2 

sin a-cos a cos a sin a 


C - 


a 


+2p 


CT i CT 2 (T 

。 2 
cos asm a cos a 


( T \ ( t x ( T 2 ( t \ 

由 （3. 3. 43) 可看岀由二维正态向量 （ f ，^) 经坐标旋转而得的随 
机向量 （ t ? i ， Th ) 还是服从正态分布.进一步，若选 a 使得 

2 pa -, o * 2 


tg 2a 


a * 2 


(3. 3.44) 


则 S = 0, 因此％与仏独立.这说明二元正态分布密度可经适当的坐 
标旋转化为两个正态分布密度之积.利用正交变换把多维正态变量 
化作独立正态分量，在数理统计中有重要应用. 


I 第三惫小结” 

本章中我们详细地研究了随机变量.用随机变量描述随机现 
象是近代概率论中最重要的方法，以后我们所讨论的随机事件几 
乎都用随机变量来描述. 

我们给出了随机变量的严格定义，按照这种观点，随机变量是 
定义在样本空间上的具有某种可测性的实值函数，只是出于历史 
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的原因，才沿用“变量”二字. 

对于随机变量，重要的是要知道它取哪一些值以及以怎样的 
概 率取这 些值. 从这个角度讲，分布函数完整地描述了随机变量. 
同时，分布函数具有良好的分析性质，便于研究，因此它成为研究 
随机变量的重要工具. 

离散型随机变量与连续型随机变量是最重要的两类随机变量， 
由于它们的取值特点不同，因此对它们的描述及处理方法都有很大 
不同. 前者列出取值及相应的概率分布，所用的数学工具主要是求 
和与 级数; 后者则用密度函数，广泛使用微积分.应该进行对比，从 
而加深理解.二者的统一是分布函数，它描述了一切随机变量. 

一种分布提供一个数学 模型. 分布函数是概率论的理论与应用 
的重要结合点.概率论中有名的分布函数大多在本章的正文、例子 
或习题中出现，数理统计中的三大分布—— 〆 分布^分布、 f 分布也 
被导出.我们相当注意揭示各种分布函数的特征性质及它们之间的 
联系.这些分布函数在不同的理论和实际问题中扮演重要角色. 

正态分布是概率论中最重要的分布，在应用中及理论研究中 
占有头等重要的地位，它与泊松分布及二项分布是概率论中最重 
要的三种分布.判断一种分布重要性的标准是 ：（ 1) 在实际工作中 
经常 遇到； （ 2) 在理论研究中重要，具有较好的 性质； （ 3) 用它能 
导出许多重要 分布. 以上三种分布都满足这些要求. 

把几个随机变量放在一起作为随机向量研究时不但需要研究各 
个分量个别的性质，而且要考虑它们之间的联系，从而大大丰富了研 
究的内容，条件分布及独立性概念也随之出现，它们是条件概率及事 
件独立性概念在随机变量场合的具体化，在今后研究中很重要. 

随机变量的函数的分布律的推导，在数理统计中及在概率论 
的许多应用中相当重要，我们这里分一对一，多对一，多对多三种 
类型对直接法和变换法这两种处理方法作了深入介绍.这部分内 
容，只有通过动手多作练习，才能牢固掌握. 

可测性是严格定义随机变量的关键，因而离不开博雷尔点集与博 
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雷尔函数等概念，否则连随机变量的函数是否随机变量都无法讲清. 

垂习题三 

知靡 ■一晒 "丨 'INI - 

1. 直线上有一质点，每经一个单位时间，它分别以概率 P 及 9 向右或向 
左移动一格，若该质点在时刻0从原点出发，而且每次移动是相互独立的，试 
用随机变量来描述这质点的运动（以\表示时刻时质点的位置）. 

2. 设 f 为伯努利试验中第一个游程（连续的成功或失败）的长，试求 f 
的概率分布. 

3. (:应取何值才能使下列数列成为概率 分布： 

(0 仏=吾， \ ， 2,… ， N; 

(2) p k = C -^ y t k= 1,2, ••- , A >0. 

4. 若分布函数定义为 = ，试证这时的 F (*) 具有下列性 

质:⑴ 非降; ⑻ F (- oo )=0, F (+ oo )= l ；( iii ) 右连续. 

5. 若 <~#(0，1),试求常数 使 （1) a = P\i^l.6A5\ ；(2) P\ \(\< 
b\ =95% ；(3) P | I 卜 cl>cj =0.51. 

6. 妊娠天数 f 的分布函数为 #(270,100), 求 f 落在下列范围的 概率： 
(1) (260,280)； (2) 短于250 天； （3) 长于300天. 

7•若 f 的分布函数为 #(60,9) ，求分点〜 而 ,* 4 ,使在落在 （-00 ,〜 ） ， 
(〜，;》 ：2 ),(：»; 2 ,：*; 3 ),(心，％)，（* 4 ,00)中的概率之比为7: 24 ： 38 ： 24 ： 7. 

/ k 一 

•8. 在帕斯卡分布 ( 1 j //穿中，令左仏 = i ，P = 入“，试证当心- *0 时，它 

能用 ^ 1 :丨 ， • ^来逼近.（这可以解释为第 r 次成功发生在 （ f ， f + Af ) 中 
(卜1)! 

的概率，其密度函数正好是参数为 r 的埃尔朗分布.用这种方法可以把课文 
中的对比严格化 .） 

9. 在生存分析中，作为研究对象的是非负随机变量，它们的分布称为寿 
命分布.若 f 是非负随机变量，其分布函数为 F ( x ) ，密度函数为 / U ) ，这时通 

常还引人生存函数多幻及失效率函数 A (幻 = 7^^. 试导出 

1 - r ( x ) 
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S ( x ) t \( x ) ， FU ) 及 /(幻 之间的关系式，并以指数分布验证之. 

10. 设随机变量 f 取值于 [0,1], 若 PU < f < yi 只与长度; y - x 有关（对一 
切0在^^：^1)，试证€服从[0，1]均勻分布. 

mi . 若存在0上的实值函数 Q [ e ) RD ( e ) 以及 ru ) 及 s (^) ,使 
/<,(«) = expj + D ( e ) + S ( x ) | 

则称是一个单 参数的指数族 •证明 （1) 正态分布斤（饥。，(7 2 )，已知 
饥。，关于参数 o *;(2) 正态分布 iV ( m ,4) ,已知(7。，关于参数 m ;(3) 泊松分 
布 PU ) 关于 A 是一个单参数的指数族. 

但是[0，0]上均勻分布，关于0不是一个单参数的指数族. 

12. 定义二元函数 

F(,,r) ={ U “” 0 

lO , x + y 0 

验证此函数对每个变元非降，左连续，且满足分布函数性质 （ ii ), 但无法使 
(3.2.5) 保持非负. 

13. 若 f \( x ) ,/ 2 (： y ) 为分布密度，求为使 / U ,： r ) =/,(*) x / 2 ( y )+/ i (», y ) 成 
为密度函数, / Kty ) 必须而且只须满足什么条件. 

14. 若 J ]( x ) f / 2 ( x ) ,/ 3 U ) 是对应于分布函数 F ,( x ) f F 2 ( x ) , F 3 U ) 的密度 
函数，证明对于一切 《(- l < a < l ), 下列函数是密度函数，且具有相同的边际 
密度函数/,(幻,/ 2 (幻,/ 3 (4: 

f a (x 1 f X 2 f X 3 ) 

=/ i( x i )/ 2 (*2 ) M x i ) I l + a [2 F ,(* 1 )- l ] 

• [2F 2 (* 2 )-1][2F 3 (^)-1]| 

15. 若 ( f , 77 ) 的联合概率分布为 



且 PI ⑼ #0| =0.4 y P\rj^0\^0\ = + , 试求: 

(1 ) a ， b，c 之值； 

(2) f 及 77 的边际概率 分布； 

(3) 的概率分布. 
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16. 若 （ f ，^) 的密度函数为 


p ( x 9 y ) 



x > 0 y y > 0 
其他 


试求：（1)常数心 (2) P \ i <2 t rj <\\； (3) f 的边际分布 函数; 

(4) P|^<2 |； (5) p ( x \ y ); (6) P \^<2\ V <1\. 


17. 


若 P\fi = m y p = n\ 


(Ap) w (A-Ap) ^ = 0,1,2-, 

m! (n-m) ! ’n = 0，l，2, … 


试求 ：（1) P\v = n\ ； (2) P\fi = m\ ； 

(3) P\fjL = m\v = n\ ； (4) P\p-/i = k | 

18. 设二维随机变量 U, t ?) 的联合密度为 


p { x t y ) 


,_, (y - *)* 2 " 


r(A ： ,)r(A： 2 ). 

\>0,灸 2 >0,0<_<00 .试求 f 与 7? 的边际分布密度. 

*19. 试证 pU,：r) = /^ (fl * 2 —， +ey2) 为密度函数的充要条件为 fl>0， c >0,6 2 - 


ac<0 = ac - b 2 • 


20. (1) 若 （fa) 的联合密度函数为 




r 4 xy f 0 ^ x ^ 1 f 
io, 其他 


问 f 与 ry 是否相互独立？ 

(2) 若 （fT；) 的联合密度函数为 


g { x y y ) 


r Sxy , 0 彡 * 彡 y, 

io, 其他 


0 ^ y ^ 1 


问 f 与^是否相互独立？ 


21. 若 fry 相互独立旦皆以概率 +取值 + 1及-1，令 （ = 6;, 试证 


两两独立但不相互独立. 

22. 设 （^,7?) 具有联合密度函数 

心卜庁 ， 丨 … 1 ，… <丨 

U, 其他 

试证 f 与7?不独立，但 f 与 T； 2 是相互独 立的. 

23. 若每次试验中出现岑，4,名的概率分别为/ ，/ >2及 p 3 , 而且 A + P 2 + 
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p 3 = 1 , 共进行 n 次独立试验，以 A,A , M 3 分别记 <出现的次数，试求： 

( 1 ) (仏, M2 ) 的联合概率分布； 

( 2 ) 仏的概率分布； 

(3) P \ fji 2 = k 2 \ fi } = k x I . 

24. 袋中装；号球 乂只 ， Z = l ,2,3,； V 1+ yV 2+ ； V 3 = '从中随机摸出只，若 
以仏,)^ ,仏分别记1，2,3号球出现的次数， 试求： 

( 1 ) ( A , A ) 的联合概率分布； 

( 2 ) 仏的概率分布； 

(3) P \ fi 2 = n 2 l/tj = 7i , I . 

25. 若 与^是 独立随机变量，且 & ~扒~,/>),心~扒乂,/>),试直接证明 
⑴ fi Hi ~ B { n x + n 2 y p )； 


(2) P|f, =k\^+^ 2 =n\ = 



26. 若&与心是独立随机变量，均服从泊松分布，参数分别为 <及入 2 , 
试直接 证明： 


( 1 ) 具有泊松分布，参数为 a ,+ a 2; 


( 2 ) Pi fl ， 1 + “ l =(:) (表)（表) 


27. 设 f 的密度函数为 p ( x ), 求下列随机变量的分布密度函数 ：（1) 7；= 
f l ;(2) 7 ? = tg ^;(3) rj = 1^1. 

28. 设 f 与 77 相互独立且服从同一几何分布，令 （= max(f , 7 ；) ,试求 
(1) («) 的联合概率 分布； （2) (的概率 分布； （3) f 关于（的条件概率分 
布. 


29. 若 fry 为相互独立的分别服从 [0. 1] 均匀分布的随机变量，试求 （= 
f + W 的分布密度函数. 

30. 在（0,«)线段上随机投掷两点，试求两点间距离的分布函数. 


31 - 若相互独立，均服从参数为士的指数分布 Ex P (士)，试证 
«-77服从拉普拉斯 分布： 


p ( x ) 


2a 


, -oo <X<00 
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32 . 若 f 与 7? 相互独立，分别服从 / V (0,1) ，试证必服从柯西分布. 

V 

33. 若相互独立，且皆服从指数分布，参数分别为 A ,， 
入2,…，，试求 77 = min ( fi ，心 ，…，匕）的分布 • 

34. 通称下列分布函数为韦布尔 分布： 

F ( x ) = ( 1 " eA ，：V>0 
lO , x ^ 0 

这是韦布尔 （ Weibull ) 在研究金属材料的疲劳寿命中导出的，在可靠性研究 
中有广泛应用. 

若匕，…，^相互独立，相同分布，并以 f 记它们的最小值， （1) A 
(幻时，试求 G 的分布函数 .（2) 若专: 〜 FU )， 试导出 f 的分布函数. 
链条的寿命取决于最弱环节，试说明上述概率结论的实际含意. 

*35. 若 Uj ) 服从二元正态分布，参数/^,从 2 ,¥ , d , P ，以 Z )( A ) 记下面 
椭圆的 内部： 

(x -/i, ) 2 2p(x - tx x ){y - /i 2 ) (y - /jl 2 ) 2 2 

^ + cr 2 2 = 

试求/ e /) U ) t . 

36. 若气体分子的速度是随机向量 F =( Z , F ， Z ), 各分量相互独立，且均 


服从 / V (0,^ 2 ) ，试证 S = yx 2 + y 2 + z 2 服从麦克斯韦分布律 


P(s) 


\ ^ a 



s > 0 


m 37. 若& ，匕 ，…，〔相互独立，均服从#(0,1)，试用 （3. 3. 18) 式，化为" 
维极坐标，证明 — 服从; t 2 分布. . 

38. 若 f 与77相互独立，且分别服从 r (/ ^ A ) 及 r ( r 2 , A ) ，试求 a=(+ V 

与芦=/-的联合密度函数并证明 ： U ) 随机变量0服从办 分布： 


p ㈦ 篇 trK 2 ' 0<t；<1 

(2) 随机变量《与月独立. 


39. 若 f 7?独立，且均服从 7 V (0,1) ,试求 t / = f 2 + 77 2 与的密度函数, 

V 

并证明它们是独立的. 
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40. 若 U, r ?) 服从二元正态分布 （ 3. 2. 22) ，试找出分77与卜77相互独立 
的充要条件. 

41. 对二元正态密度函数 

p( x ty) - ^—exp| — ^-(2x 2 + y 2 + 2xy - 22x - I4y + 65)} 

(1) 把它化为标准形式 （ 3. 2. 22);(2) 指出〜，/^， A , (3) 求 

PM ;(4) 求 

(1 3 2\ 

42. 设 / tU —、 3 4 1 ，试写出分布密度 （ 3.2. 12) 并求出 （匕 ， f 2 ) 

,2 12, 

的边际密度函数. 

**43. 设 f 与 T ； 是相互独立相同分布的随机变量，其密度函数不等于0且 
有二阶导数，试证若分7；与卜7；相互独立，则随机变量 ^ V ^ V ^- V 均服从 
正态分布. 

44. 把习题 25 和习题 26 的结果推广到^个随机变量的场合. 

45. 设随机变量 f 与77相互独立 , f 而7?服从 （0,1) 上均勻分 

布，试求 f + W 的分布函数和密度函数. 

• U6 . 试求顺序统计量 G 与匕_ ( k<l) 的联合密度函数. 

47. 试利用概率韵连续性重新证明一元分布函数的性质 （ ii ) 和性质 
( Hi ) ，并说明这种证法可推广到多元的场合. 

*48. 利用随机变量分布解释贝特朗奇论. 

•49. 若/是上单值实函数，对 fiCR 1 , 记广 （ fi )= \ o ) Gn ： f (< o ) gB \ , 
试证逆映照尸 1 具有如下 性质： 

(1) 广( UB a )= Uf \ B x )； 

X g A A g A 

(2) 广( hb x )= nf ^ Bj ； 

X g A X g A 

**50. 证明是一个随机变量当且仅当对任何 ^ gR 1 ，成立 

\( 0 ：^( a >) < xj G ^ 

[提示 ••必 要性是显然的，为证充分性，记 01 = M : AcR \ U ( co ) eA ) g 
，验证|»是0■域，又 in 包含全体形如 （-00 ，*)的区间，故 in 包含名] 
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第四章数字特征与特征函数 


§1.数学期望 

一、 平均值与加权平均值 


有甲、乙两个射手，他们的射击技术用下表 表出: 


甲射手 乙射手 


击中环数 1 

1 

■ 

■ 

10 击中环数 

■ 

9 

10 






0.5 

0.3 


试问哪一个射手技术较好？ 

这个问题的答案不是一眼看得出的.这说明分布列虽然完整 
地描述了随机变量，但是却不够“集中”地反映出它的变化情况. 
因此我们有必要找出一些量来更集中、更概括地描述随机变量，这 
些量多是某种平均值. 

求平均值是大家都很熟悉的一种运算.例如，某公司有〃个职 
工，他们的工资分别为 A …，七，则这个公司的平均工资为 



n 


还有其他求平均值的方法.例如，一个小学生，他的考试成绩 
为••语文 95分，算术85分，常识60分，若依上面方法计算，则他的 
平均成绩为力 = 80. 显然，这个数字不太能反映这个学生的真正成 
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绩，因为它没有考虑到这三个科目的相对重要性.在这个年级中， 
每周语文有10节课，数学有8节，而常识只有2节.在评价学生成 
绩时，这个因素不能不考虑，因此用下面方法来计算学生的平均成 
绩，似乎更合 理些： 

— 95 x 10 + 85 x 8 + 60 x 2 

〜= 10 + 8+2 


10 8 9 

= 95 X 20 + 85 X 20 + 60 X 20 = 87 - 5 


这种平均称为加权平均.其一般定义 如下： 给定权 


1，2,…, n ， 满足又％ = 1，则 
1 

n 

\ 2切 〆 i (4. 1. 2) 

1 

称为％ ,1 2 广*，\关于权1«\，^=1 ,2, ••- 9 n \ 的 加权平 均值. 

显然，在某些情况下，加权平均更加合理.由于“权”的大小直 
接影响最后结果，因此“权”的选择是加权平均中最重要的问题. 
例如为测量泰山的高度可以安排几个测量队从不同的地点进行测 
量，由于各个测量队的技术水平不一，各地点的地理条件不同，因 
此最后的结果恐怕要采用某种加权平均值为好. 

不言而喻，普通平均是加权平均的一种特例，这时所有的权相 
等. 

平均值按其大小总在原始数据的当中，因此它反映了一组数 
据的中心趋势 （central tendency ). 

在上面的问题中，若使两个射手各射斤枪，则他们打中的环 
数大 约是： 

甲 ：8 x 0. 3^ V +9 xO . 1 A ^+ I 0 x 0. 6N=9. 3N 
乙 ：8 x 0. 2N+9xO. 5N+I0x0. 3N=9. IN 
平均起来甲每枪射中 9. 3 环，乙射中 9. 1 环,所以甲射手的技术要 
好些. 

因此，这里的计算公式为 
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m = 8 x p % + 9 x p 9 + 10 x p 10 
这是对击中环数的加权平均，其权正好取为相应的概率. 

二、离散型场合 

受上面的问题启发，对一般离散型随机变量，我们可引进如下 
定义 • 

定义 4.1.1 设 f 为一离散型随机变量，它取值&，％，％，… 
对应的概率为/>, ， p 2 ，/> 3 ，…如果级数 

QO 

X x iPi (4.1.3) 

i = 1 

绝对收敛，则把 它称为 f 的数学期望 （mathematical expectation ) ，简 
称期望、期望值或均值 （ mean ) ，记作 

0D 

当^ 发散时，则说6的数学期望不存在. 

i= 1 

定义中对级数要求绝对收敛是为了数学处理的方便.从直观 
上来讲，它也是合理的 ：因为诸义的 顺序对随机变量并不是本质 
的，因而在数学期望的定义中就应允许任意改变乂的次序而不影 
响其收敛性及其和值，这在数学上就相当于要求级数 （4. 1. 3) 绝 
对收敛. 

显然数学期望由概率分布唯一确定，以后我们也称它为某概 
率分布的数学期望.下面来计算一些重要的离散型分布的期望值. 

[例 1] 伯努利分布事件4发生的概率为/>，若以1/己其 
示性函数，即4发生时取值1，否则取值0,则 

E 1 a = 1 x /> + 0 x ( 1 - p ) 

= p = P ( A ) (4. 1.4) 

因此概率 PM ) 是随机变量的数学期望.从这个角度看，概率是 
数学期望的特例. 

[例 2] 二项分布 = p k q n ~ k , A ： = 0，1 ，2,…，《 
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= np(p + g) nl = np 

掷一枚均匀硬币 100 次，您能期望得到多少次正面？ 
是 np . 

[例 3] 泊松分布 ， k = Q ，2, … 

® « V A « » A-l 

L kPk = l k 'kT e ~ A= ^ X lw^. 

=Ae _A • e A = A 


由此看出，泊松分布的参数 A 就是它的期望值. 
[例 4] 几何分布 p k = q k ~ l p 9 A := l ，2, … 


(4.1.5) 
-答案就 


(4. 1.6) 


2 = X k q kl p =〆 1 + 2 兮 + 3〆 + …) 

A=1 A= 1 

= p(q + + …）， = p ( y -^—)' 


P 


1 


(1-^ = 7 ( 4 . 1 . 7 ) 

重复拋一粒骰子，平均拋多少次才能出现一次么点？——假如您 


心中的答案是 6 ，那么这就是 7 . 


：2 A 


[例 5] 随机变量 f 取值〜 &=1,2,…对应的 

00 

概率为则由于 p , 彡0, Z />, = 1，因此它是概率分布，而且 


= Z ( _1 ^ T =_ln2 


但由于 
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因此按定义 f 的数学期望不存在. 

从上面例子看到，几种重要的离散型分布，其参数都可由数学 
期望算得，因此数学期望是一个重要的概念. 


三、应用实例 


从上面讨论中可以看出，数学期望刻画了随机变量取值的某 
种平均，有明显的直观含意.在许多问题中，数学期望的概念甚至 
比概率和随机变量等概念更易被人理解和接受.在概率论发展的 
早期，人们常用的概念和工具是数学期望.下面的例子将有助读者 
对这个重要概念的深人理解. 

[例 6] (押宝）押宝是赌博的一种，它以种种形式在世界各 
地流行，吞夺大量财富，现举一例以揭穿其本质. 

在我国南方流行一种称为“捉水鸡”的押宝，其规则如 下：由 
庄家摸出一只棋子，放在密闭的盒中，这只棋子可以是红的或黑的 
将、士、象、车、马、炮之一.赌客们把钱押在一块写有上述十二个字 
(六个红字、六个黑字）的台面的某个字上.押定后，庄家揭开盒子 
露出那只棋子.凡押中者（字和颜色都对）以1比10得到赏金，不 
中者其押金归庄家. 

为对这种押宝的实质有个了解，最好考察一个赌徒当他押上 
1元赌注之后的期望所得.显然其分布列为 



0 11 

P 

11 1 

n n 


因此其数学期望为 

由于支出 （1 元）和期望收入元)不等，因此这是不公平的 
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赌博，它明显对庄家有利.数学期望的概念帮助我们认清了这个本 
质 • 


事实上，当一个赌徒走进一座赌场时，他面临的都是这种不公 
平的赌博，否则赌场的巨大开销和业主的高额利润从何而来呢？ 

普及概率知识有助于杜绝赌博现象. 

[例 7] (彩票）彩票的发行，数额巨大，其实质如何呢？请 
看一则实 例:发 行彩票100万张，每张5元.设头等奖5 个 ，奖金 
31.5 万元; 二等奖95 个， 奖金各5 000 元； 三等奖900 个， 奖金各 
300 元； 四等奖9 000个，奖金各20元. 

还是算算每张彩票的期望所得.这时分布列为 


V 

315 000 

5 000 

300 

20 0 

P 

5 

95 

900 

9 000 

100 $ 

100万 

100万 

100万 + 


(4.1.9) 


其中一等奖的金额本来另行摇出，此地为简便计，用其 均值； 至于 
* ，无需细算. 

花5元买来的一张彩票，从摇奖中的期望所得为 

< QS QOO Q 000 

恥=3 15 000 x ^ + 5 000 x I ^ + 300 x I ^ + 20 x ^ 

= 2.5( 元）. 

即大约能收回一半.因此这实质上也是一种于购买者不利的非公 
平博弈，所以历来博彩并称.显然不能把购买彩票当作一种投资渠 
道. 

在我国，彩票的发行严格由民政部门管理，只有当收益主要用 
于公益事业时才允许，如福利彩票与体育彩票. 

[例 8] (投资之决策）投资总具有一定风险，因此在选择投 
资方向时，计算其期望收益常是可供考虑的决策方法之一.下面是 
一个大为简化的例子. 

某人有10万元现金，想投资于某项目，预估成功的机会为 
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30%，可得利润 8 万元，失败的机会为70%，将损失2 万元. 若存 
入银行，同期间的利率为5%，问是否应作此项投资？ 

以（记投资利润，则其分布列为 



8 

-2 

p 

0.3 0.7 


因此 

£；( = 8 x 0.3-2 x 0.7 = l ( 万元) 

而存入银行的利息为10 x 5% =0.5( 万元），因此从期望收益的角 
度看，似应选择投资，当然这时要看投资者是否愿意冒这样的风 
险. 

投资总希望得到尽可能高的收益，又想尽量规避风险，问题是 
如何折衷其间.在引进风险的度量之后，我们将再次回到这个问 
题. 

上述对赌博、彩票和投资的讨论集中于分析未来不确定性事 
件的金融后果，也彰显了数学期望概念的重要性，类似的还有保 
险.保险与赌博等不同，因为赌博创造一个本来没有的风险，而保 
险则管理一个本已存在且不可避免的风险. 

[例 9] (保险）为规避某种未来的不确定性事件（例如空 
难），人们不是自己创造一个分担群，而是找一个中介即保险公 
司，付保险金.保险公司创造满足某些要求的群体，使其整个索赔 
费用为合理而可预测的（主要依据是下章要讲的大数定律） ，弁在 
这个过程中得到利润.下面我们讨论如何对保险费进行精算.在保 
险学中，收取保险费的原 则是： 被保险人交的“纯保险费”与他们 
所能得到的赔偿金的期望值相等. 

因此，若出事的概率为/>，有/ V 个人参加保险，则每人交的纯 
保险费 a 与出事赔偿金6,应有下面 关系： 

Na = ^ p k (^ - P、 N k • kb 
k = o \ k ) 
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即正如所预期的. 

保险的种类繁多，但上述原则不变，因此保险费的计算离不开 
概率论. 

[例 10] (—种验血新技术）在一个人数很多的单位中普查 
某种疾病，#个人去验血.对这些人的血的化验可以用两种办法进 
行 . （1) 每个人的血分别化验，这时需要化验; V 次； （2) 把 / c 个人 
的血混在一起进行化验.如果结果是阴性的，那么 对这& 个人只作 
一次检验就 够了； 如果结果是阳性的，那么必须 对这& 个人再逐个 
分别化验，这时 对这& 个人共需作 hi 次化验.假定对所有的人来 
说，化验是阳性反应的概率都是/>，而且这些人的反应是独立的. 
我们来说明在相当小的场合，采用办法 （2) 能减少化验的次数. 

若记则 &个人 的混血呈阳性反应的概率为1- 〆 ，用 
(2) 的方法验血时，每个人的血需要化验的次数 f 是随机变量，其 
分布列为 



1 

T 

1+ T 


P 

k 

q 

lV 


因此 




五 f = 士 • / + ( 1 

+ t) 

(1 - q ) 

^- qk+ \ 

/V 个人需要的化验次数的期望值为 

、士) ，当令 士〉 0 时， 


就能减少验血次数.例如当/> = 0. 1时 ，取& = 4，则 〆 -+ = 0. 4.用 


(2) 法平均能减少40%的工作量.显然/>愈小，用这种方法愈有 
利.当已知时，还可以选定整数 / c 。， 使^达到最小，把个人分 
为一组就最能节省化验次数. 
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四、连续型场合 


下面我们转人考虑连续型随机变量的数学期望.设随机变量 
专 有密度函数 PU ) ，取很密的分点 〜 <&<〜<•••<& ，则6落在 [', 
乂 +1 )中的概率近似地等于 〆 ')(〜、），因此 f 与以概率 PU ) 
(\ +1 -\)取值 巧的 离散型随机变量近似，而这离散型随机变量的 
数学期望为 


Y j x i p(x i )(x i+l - X,) 
i 

上式是积分 f xp(x)dx 的渐近和式，这个直观的考虑启发我们 

J 一 00 

引进如下 定义： 

定义 4 . 1.2 设6为具有密度函数 pO ) 的连续型随机变量， 
当积分 f 冲绝对收敛时，我们称它为 f 的数 学期望 （或均 

J 一 00 

值），记作即 

00 

= f xp(x)dx ( 4 . 1 . 10 ) 

J — 00 

显然这里定义的数学期望也只与分布有关.下面计算一些重 
要的连续型分布的数学期望. 

[例 11] 正态分布 



xp(x)dx =J 



dx 


(az + fi)e~ z2/2 dz 



可见^ 2 )中的参数蛘正是它的数学期望. 
[例 12] 指数分布 />($)= Ae _Ax , x ^ O . 




(4. 1. 11) 


(4. 1. 12) 
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[例 13] 柯西分布 p ( x ) = — • 

TT 1 +X 

由于 

r ® 1 

1 ^ 1 * - z—dx = 00 

J -» 7t( 1 + X ) 

因此柯西分布的数学期望不存在. 

五、一般场合 

我们已经对离散型随机变量及连续型随机变量分别定义了数 
学期望，现在自然希望找到一种能适合一切随机变量的数学期望 
定义，并把上述两种情况作为特例.为了做到这点，需要利用斯蒂 
尔切斯 （ Stieltjes ) 积分①. 

若随机变量 f 的分布函数为 F ( x ) ，类似于连续型随机变量的 
场合,作很密的分割％ <•••<%„,则 f 落在 [ U i+1 ) 中的概率 

等于 F ( x i+1 ) - F ( Xi ) ，因此 f 与以概率 F (\ +1 )- FU ) 取值 '的离 
散型随机变量近似，而后者的数学期望为 

Y J x ii F ( x i + i) - Fix,)] 

i 

注意到上式是斯蒂尔切斯积分 f xdF ( x ) 的渐近和式，这启发我 

j - 00 

们引进如下 定义： 

定义 4.1.3 若6的分布函数为则定义 

= [* xdF ( x ) (4. 1. 13) 

J - oo 

为 f 的数学期望 （或均 值）. 这里我们还是要求上述积分绝对收 
敛，否则数学期望不存在. 

关于斯蒂尔切斯积分 


①如果读者不熟悉斯蒂尔切斯积分而又希望对它有所了解，可参看复旦大学数 
学系，实变数函数论与泛函分析概要（第二版），上海科技出版社，1963,第四章. 

不过，为读懂本书其余部分，只要承认后面所述的少数事实就可以了. 


• 193 • 



/= f g(x)dF(x) (4.1.14) 

J — OD 

我们仅列举它的如下 性质： 

( i ) 当 F (均为跳跃函数，在 义（^=1，2, …）具有跃度 凡时 ，上 
面积分化为无穷级数 

1 = 

i 

(ii) 当 F ( x ) 存在导数 ，(％) = 〆 幻时，积分 (4.1. 14) 化为普 
通积分 

,= f g(x)p(x)dx 

J - 00 

( iii ) 线性性质 

f [agi(x) + bg 2 (x)]dF(x) 

J — ao 

=a[ g l (x)dF(x) + bf g 2 (x)df(x) 

J — QO J — 00 

( iv ) 

f g ( x ) d [ aF 1 ( x ) + bF 2 (x) ] 

J 一 QO 

= g(x)dF l (x) + bf g(x)df 2 (x) 

( v ) f g(x)dF(x) = f g(x)dF(x) + f g(x)dF(x) 

J a J a J c 

( a 彡 c 彡 6) 

( vi ) 若 (幻单 调不减 ，6> a ，则 

J g(x)dF(x) ^ 0 

从头两个性质，我们知道定义式 （4. 1. 13) 的确能包含 （4. 1. 
3) 及 （4. 1.10) 作为特例. 

六、 随机变置函数的数学期望 

下面讨论随机变量的函数 V = g (^) 的数学期望的定义，这里6 
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是分布函数为(幻的随机变量，而 g ( x ) 是一元博雷尔函数，从 
上章§ 3的讨论已知7?是随机变量.通过类似于引进 （4. L 13) 的 
推理，似应定义 g (0 的数学期望为 

E 咖）[心(、 +1 )-阶)] 

i 

的极限，即 

聰）=「 g ( x ) dF ,( x ) (4.1.15) 

J 一 00 

这里当然还是要求这个积分绝对收敛. 

但是，另一方面，因为7；是随机变量，也有分布函数，记之为 
F v ( x ) ，则按一般随机变量数学期望的定义式 （4. 1.13) 又应有 

E V = C ydF v ( y ) (4.1.16) 

J — Qo 

因此，这两个积分应该相等.事实上，这两个积分的确相等，我们把 
这个事实写成定理的形式. 

定理 4 . 1.1 若是一元博雷尔函数，而则 

f ydF v ( y ) = f g ( x ) dF i ( x ) (4.1.17) 

J — 00 J — 00 

即这两个积分中，若有一个存在，则另一个也存在，而且两者相等. 

这个定理的证明要用到测度论，超出了本课程范围.我们只能 
列出结论,并指出它的重 要性： 一方面，它消除了随机变‘的数学 
期望定义中所出现的表面 矛盾； 另一方面在计算随机变量函数的 
数学期望时也可以带来很大的方便，我们无须先计算7/的分布函 
数 &( y ) (回忆上章§3的繁复计算）再求其数学期望，而可以直 
接从 f 的分布函数 &( 幻出发利用 （4. 1. 15) 来计算. 

历史上，先是统计学家从直观出发广泛使用 （4. 1. 15) 式，尔 
后才由概率论专家从数学上给予严格证明，首创者已难追寻，姑且 
名为 佚名统计学家公式. 

佚名统计学家公式 （4. 1. 15) 有十分明显的直观解释，在离散 
型场合，它化为 
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(4. 1. 18) 


E g(^) = X Si x i)p{ x i) 

t = i 

这从的分布列 （3. 3.5) 立刻就能 得到. 

我们以一个浅显的例子来说明它的含意. 

某零售商店出售某种小商品，每销售一件可赚 1. 5 元,关心的 
是它的利润 7；. 由于利润与销售量 f 成正比，因此要知道销售量. 
比较合理的做法是假定 f 为随机变量，服从一定分布.为简单起 
见,假定每天卖出0,1，2,3件的概率分别为 0. 4,0. 3,0. 2,0. 1.这 
时希望计算平均利润 

第一种计算方法是把卩看作随机变量，求岀其概率分布，再 
按一般数学期望公式计算.这时 W 的分布列为 


V 

0 1.5 3 4.5 

P 

0.4 0.3 0.2 0. 1 


因此 

Er \ =0x0. 4+1. 5x0. 3+3x0. 2+4. 5x0. 1 
= 1.5( 元） 

这种算法就是按公式 （4. 1. 16) 的思路进行的. 

另一种算法把7?看作 f 的函数7； = 1. 由于 f 的分布列早就 
知道为 



0 1 2 

3 

P 

0.4 0.3 0.2 

0. 1 


因此按 （4. 1. 18) 式（也即按 （4. 1. 15) 式） 

Er ]= E ( 1. 5^)= 1.5x0x0.4 + 1.5x1x0. 3 + 1.5x2 
x0.2 + 1.5x3x0. 1 
= 1.5( 元） 

正如预期的，两个答案相同，这也为定理 4. 1. 1提供了例证. 
下面的例子更接近于实际，不过其方法实质是一样的. 
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[例 14] (报童问题）设某报童每日的潜在卖报数（服从参 
数为 A 的泊松分布.如果每卖出一份报可得报酬 a ， 卖不掉而退回 
则每份赔偿&若某日该报童批进 n 份报，试求其期望所得.进一 
步，还要求最佳的批进份数& 

[解]若记其真正卖报数为 匕则 f 与 （ 的关系 如下： 


U , 

这里的 f 服从截尾泊松分布，即 


C < 


P\^ =k\ 


k \ 


k < 


A 1 


工 ， 

(=n ♦ 

记所得为^则 7； 与 f 的关系 如下： 


V = g (0 


ia 


6(n - 《） ， ^ < 


因此由 （4. 1.18)， 期望所得为 


M ( n )= Eg (^)= ^ - e ~ x [ ka -( n - k ) b ] 


r 

- i 

kl 


A * A ; 

( a + b )\ ^ — e~ A - n ( a + b ) ^ 


na 


+na 


—kr v 7 k\ 

这个问题的最终解决是当 a 9 b 9 \ 给定后，求 n 使 M ( n ) 达到 
极大，这是一个典型的最优化问题，也是报童问题的正确解. 

由 （ 3. 1.44) 推知，计算泊松分布的部分和可用下列 公式： 


V A -a f A r - 

= LrU) x 


f dx 


r(r) 


y 


(4. 1. 19) 

右端的数值可在数学表中查到.公式 （ 4. 1. 19) 是埃尔朗分布的一 
个应用，也可用分析方法直接证明. 

佚名统计学家公式更有用的场合是当 f 具有密度函数 />( 幻 
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时，这时它化为 


Etj = Eg (^) = f g ( x ) p ( x)dx (4.1.20) 

J — QO 

这个公式经常用到.下面是一个例子，这个例子也顺带说明可以利 
用随机变量的期望值来作出某种最优决策. 

[例 15] (最优存货量）市场上对某种商品的需求量是随机 
变量 M 单位： 吨），它服从[2 000,4 000] 上均勻分布，设每售出这 
种商品1吨，可挣得3万元，但假如销售不出而屯积于仓库，则每 
吨需浪费保养费1万元，问题是要确定应组织多少货源，才能使收 
益最大？ 

[解] 若以 y 记预备的此种商品量（显然可以只考虑2 000 
^7^4 000的情况），则收益（单 位: 万元） 

1-3^ - (r - ,当《< y 时 

为了求得利用公式 （4. 1. 20) , 

1 A 000 

E V = \ H ( x ) p ( x)dx H ( x)dx 

J -00 L UUUJ 2 000 

1 f 1 r 4 000 

= 20^J 2 ooo (4 ^ r)d " + 2000J y 3jd " 

= Tho ( ~ y2 +7 000 y -4 x 10 6 ) 

此式当 y = 3 500 时达到最大，因此组织 3 500 吨此种商品是最好 
的决策. 

七、多维场合 

可以把佚名统计学家公式推广到随机向量的场合，若 （ f ，…， 
L ) 的分布函数为•••，〜），而，•••，&)为元博雷尔函 
数，则 

^^(6 ， … D = f •••( 客 （ A, … 

J — 00 J -> 00 
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特别地， 

= [ … f x^dFix^ 9 x n ) = f ) 

其中心（^)是 f 的分布函数 .一 般地，引进如下定义 

定义 4. 1.4 随机向量 （ f ，^, …，匕） 的数学期望为 （岐^ 

00 <JD Q0 

Hi = [ *•*[ M 尸 ( 叼 ，…, % n ) = f 

J — 00 J — 00 J — 00 

这里心(义）是 A 的分布函数 （i = 1 , 2 , ••- 9 n ). 

因此二元正态分布 （3. 2. 22) 中的参数(仏 ，/ x 2 ) 正是相应的随 
机向量的数学期望. 

一维或多维的佚名统计学家公式在以下的理论推导与数值计 
算中都起重要作用，它是概率论中常用公式之一. 

八、数学期望的基本性质 

性质 1若 a <6,则 a ^ E ^ b . 特别地 Ec = c , 这里 a ， b，c 
是常数. 

性质 2线性性质 W 任意常数 c f , i = l , …，/ I 及6,有 

E ( Z c ^ +b )= I + b 

i = 1 i = 1 

利用佚名统计学家公式，这两个性质的证明是明显的.性质 2 
对数学期望的计算很有用处. 

[例 16] 求超几何分布 



的数学期望. 

n 

当然可 以用又 ~^直接求出，但也可用下面方法来计算. 

A = 0 
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设想一个相应的不放回抽样，令 

_|1,第 i 次抽得次品 
fl = lo , 第 i 次抽得好品 

则尸1么=1 I =#,因此 從 =|，而6 = 6 +… 表示打 次不放回抽 
样中抽出的次品数，它服从上述超几何分布，利用性质2得到 


§2.方差，相关系数，矩 


一、 方差 

数学期望是随机变量的一个重要数字特征，它表示了随机变 
量取值的平均水平，从一个角度描述了随机变量.但是从下面例子 
马上可以看出，单用数学期望描述随机变量通常是不够的. 

再考察两个射手，他们的射击技术用下表 表出： 


丙射手 丁射手 


击中环数 

8 

9 

10 

击中环数 

8 

9 

10 

概 率 

0. 1 

0.8 

0. 1 

概 率 





显然,他们每射一枪的期望值都是9环.不过，他们之间的技 
术差异是明显的，有必要进一步刻画. 

细察之下发现，丙射手的射击大部分集中在均值9环，而丁射 
手则散布度比较大. 

一般地，当我们考察一组观察值…时，其平均值无= 

— fx , 给予我们一个关于这组数据中心的表征.接下来我们注意 
n fri 

的便是这组数据对于平均值的偏离，也就是 A \-元当 
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然我们也想用一个数字来刻画这种偏离.首先想到的可能是把这些 

n 

偏离值求和，但是马上发现这是没有意义的，因为 Q s0 , 

i = l 

这是平均值的性质之一,它来自正负偏离相互抵消.这时可供选择 
的指标有两个 ，一 个便是平均绝对偏差 

AD = — ^ I x i - x I 

可惜，这个量从数学上不太容易处理，因此最后还是让位于另一个 
指标 方差 

o - 2 = — X (^, - x ) 2 

n iTi 

上述讨论容易过渡到带有“权”的场合，进而到离散型随机变 
量的场合，即对于数学期望的偏离的平方的加权平均 

i 

1 

这些直观讨论启发我们引进如下 定义： 

定义 4 . 2.1 若存在，则称它为随机变量 f 的方 

差 （ variance ), 并记为而^称为 根方差、均方差或更 多地称 
为标准 差 （standard deviation ) • 

方差，以及它的正平方根——标准差，描述了随机变量对于其 
数学期望的偏离程度 （ dispersion ), 在概率论和数理统计中十分有 
用.在数字特征里，方差的重要性仅次于数学期望即均值.在许多 
场合，均值与方差连用就构成了相当精致的模型，这甚至有了专业 
名词——均值-方差理论. 

标准差与它描述的随机变量有相同的量纲，有时更便于 应用； 
但方差有较好的数学性质，因此更为常用.不过由于它们的转换很 
方便，通常都视不同情况择便使用. 

在应用中，方差扮演的角色则因学科与题材而异.最成功的是 
在测量与预测问题中，方差作为误差起关键作用.本节幵头讨论的 
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丙、丁两射手，丁射手的方差大，即技术不够“稳 定”； 而丙射手方 
差小，较“稳定”，大体也属于这种类型. 

在物理学与电信理论中，方差常与能量相联系. 

当代金融学中，以均值表示收益，方差表示风险，所建立起的 
均值-方差模型，已成为该学科的奠基石，并应用于金融市场的每 
个角落. 

利用数学期望的线性性质， 

W=E (专一 Eg ) 2 - 2专 • E 卜 (母） 2 ] 

- 2 E ( • E 卜 (從) 2 = E ^ -⑽ 2 (4.2.1) 

在计算中，这个公式甚至比定义式更常用. 

当然方差也由概率分布完全确定.下面计算一些重要分布的 
方差，为书写方便 ，一 律假定相应的随机变量为 f 
[例 1] 伯努利分布 

E^ 2 = I 2 • p + 0 2 • (I - p) = p 

= E ( 2 - ( E ^) 2 = p - p 2 =pq (4.2.2) 

P = g = j 时方差最大——投币最难预测，预测阴晴则较易. 

[例 2] 二项分布 



D ^- E ^ 2 -{ E ^) 2 = npq - hn 2 p 2 - n 2 p 2 =npq (4. 2. 3) 

[例 3] 泊松分布 P ( A ) 

A=0 *=1 • k=l v 

= A y (k + 1) e" A = A 2 + A 
fro «! 

D ^ = E ^ 2 -( E ^) 2 =\ 2 +\-\ 2 =\ (4.2.4) 

均值与方差都是 A . 

[例 4] 均勻分布 f /[ a ,6] 
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H r^—dx = b -^ (4. 2.5) 

J a O — Cl L 

Ef =fx 2 -l-dx = b - +a ^ ^ 

J a 0 — Ct 3 


% = 母 2 -( 母 (4.2.6) 

[例 5] 正态分布 A ^/ x , 〆 ） 



2 _1_ e -(”) 2/ ( k 2 ) 心 

y /2 TT(T 





=-^ a /2 -tt - a 2 
V / 2tt 


(4.2.7) 


这样，我们阐明了正态分布中第二个参数 ^ 的概率意义，它就是 
标 准差； 而正态分布也由它的数学期望及标准差唯一确定. 

下面讨论方差的性质 
性质 1常数的方差为 0. 

性质 2 /) U + cO = Z ^, 这里 c 是常数. 

性质 3 /)(^)=0 2 %,这里0是常数. 

对于随机变量 （，若 它的数学期望 E 彡 及方差都存在，而且 
Df >0, 有时要考虑 标准化 j 的随机变量 

t* -izM. 


显然五^ = o 9 d ^=\ ，这正是称 r 为标准化随机变量的理由 • 
性质 4 若 c^E^m D^<E(^-c) 2 (4. 2.8) 

[证明]因为 

D^ = E(^-E^ 2 =E^-c) 2 -(c-E^) 2 (4.2.9) 
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这个性质表明数学期望具有一个重要的极值性 质：在 
c ) 2 中，当 c = 时达到 极小； 这也说明在 Z ) f 的定义中取 C = 

從的合理性. 

二、切比雪夫不等式 


概率论中有许多不等式，下面的切比雪夫 （ He 6 M m eB ,1821- 
1894) 不等式是其中最基本和最重要的一个. 

切比雪夫不等式 对于任何具有有限方差的随机变量 f , 都 
有 

P \ \^ E ^\^ e \ (4.2.10) 

8 

其中6是任一正数. 

[证明]若 FU ) 是6的分布函数，则显然有 
= f (x - E ^) 2 dF ( x ) 

J — QO 

^ f (x - E ^) 2 dF ( x ) ^ f s 2 df ( x ) 

I x-E^l I x-E^\ 

= S 2 P \ I ^ - E ^\^ e \ (4. 2. 11) 

这就证得了不等式 （4. 2. 10). 有时把 (4. 2. 10) 改写成 

P \ \^- E ^\< s \ (4.2. 12) 

s 


izEi 


^ 8 \^ 


(4.2.13) 


切比雪夫不等式利用随机变量 f 的数学期望及方差 D 专： 
V 对 f 的概率分布进行估计.例如 （4. 2. 13 ) 断言不管 f 的分布是 


什么, f 落在 （ E 专- < r 8， Eha 8) 中的概率均不小于1 -去. 因为切比 


雪夫不等式只利用数学期望及方差就描述了随机变量的重要情 
况，因此它在理论研究及实际应用中都很有价值. 
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从切比雪夫不等式还可以看岀，当方差愈小时，事件 
I \^\^8\ 的概率也愈小，从这里可以看岀方差是描述 随机变 
量与其期望值偏离程度的一个量，这与我们以前的理解完全一致. 

上面已经指出，常数的方差为0,事实上方差为0的随机变量 
必为常数.利用切比雪夫不等式可对此作岀严格证明.假定 
0,注意到 

\^E(\ C U 

于是 

00 1 

P\^E^\ ^ X P \ 多丄 } 

n = 1 *■ 11 J 

00 

^ Z n 2 D ^ = 0 

n = l 

从而 


即 f 为常数. 


P\^ = E^\ =1 


三、相关系数 


对于随机向量 f = ( f ，匕， …，匕），定义它的方差为 （/>&, 

D 专2,…， D L ). 

方差反映了随机向量各个分量对于各自的数学期望的偏离程 
度，它对于了解随机向量的分布有一定帮助.但对于随机向量，我 
们除了关心它的每个分量的情况外，还希望知道各个分量之间的 
联系，这光靠数学期望与方差是办不到的.下面引进的量则能起这 
个作用. 

让我们从计算 f ±77的方差 开始： 

D ((± V )= E [(^± V )-( E (± E V )] 2 

= E(i-E0 2 ^E( v -E v ) 2 ±2E[(i-E0(v-Eri)] 

= D^+Dtj±2E[ ( rj-Erj )] 
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可见，即使为了计算的方差，也还是回避不了刻画 f 与7；联 
系的钉 U ，）（ V - E V )] ，这个考察启发我们引人如下定义. 

定义 4.2.2 称 


o* y = cov(K)= E[ d-ED (f 厂碎 ） ] 


“7=1 ， 2,…， n 

(4. 2. 14) 

为么与的协方差 （ covariance). 


不难验算 


co v(H、= E H E ^i. E l 

(4. 2. 15) 

D( < E = Z + 2 Z cov( k) 

t = i t = i i ^ £ < y ^ fi 

(4. 2. 16) 

特别地 


D (^i ± ^ j )= D ii +i>f ; ±2cov(^,f.) 

(4. 2. 17) 


方差是协方差的特例，显然 cr u = D ^. 矩阵 



称为 f 的协方差矩阵 ，简记作显然这是一个对称矩阵. 

此外，对任何实数 t / J = 1,2,…， n ) 有 

n 2 

X (r jk t j t k= E \ X 你 - 叹 ) 1 多 0 

j，k 1 ；=1 J 

因此 I 是一个非负定矩阵，所以若以 det 叉记万的行列式，则有 

det 

更常用的是如下“标准化” 了的协方差. 

定义 4.2.3 称 


Pi 


cov ( K ) 


(4. 2. 19) 


4 W ■具 

为 f 与 t 的相 关系数 （correlation coefficient ) ，这里当然要 求/^ 
与％ 不为零. 
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补充定义常数与任何随机变量的相关系数为 0. 

相关系数为正时，称两随机变量 正相关 ，为负时则称 负相关 • 

相关系数也就是标准化的随机变量与^^的协方差. 

具具 

当然，协方差和相关系数都由概率分布确定. 

可以说相关系数是规格化了的协方差，其优点是排除了随机 
变量的量纲的影响，这样定义的相关系数在线性变换下保持不变. 
准确地说，若似>0,则 ahb 与 c V + d 的相关系数仍为 
事实上，不难验算 

cov ( a ^+6 , C 7/+ J ) = accov ( h ) 

因此当 ac >0 时， 

accov (奩 ,刀） 

Pa ^ cv+d= \ac\yD^/D^ =P ' v 
当 ac <0 时 , p« cW = _/^, 但总有 pl i+btCV+d = p ] v ^ 

[例 6] 多项分布 （3.2. 6) 的相关系数. 

显然，6〜万 （ n ，/0 , i = l ，2,…， /*. 因此 

= np t , D^np^l-pJ 

为求协方差或相关系数，可用下面技巧 •.注 意到 


iiHj - B ( n 9Pi + Pj ) 

因此 

EUiHjXPi + Pj ) ， n ( p ^ Pj ) 

由于 

= ^i+^y+2cOv(^,f ; ) 


二 

= np ^^- Pi ) + npj ( l - pj ) +2 cov (^, f ; ) 


可以得到 

cov ( K )= - np iPj 

(4. 2. 20) 

相关系数为 

~PiPj 

PlJ 
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=-— 哑 __ 

V ( 1 - Pi) ( 1 - p>) 

现在讨论相关系数的性质.因为相关系数只与两个随机变量 
有关，下面的讨论将假定这两个随机变量是 f 与7；，它们的相关系 
数记为 P . 

先证明一条常用的定理. 

定理4. 2 .1(柯西-施瓦茨 （ Cauchy - Schwarz ) 不等式）对任 
意随机变量 f 与7；都有 

\ E ^ rj \ 2 彡 Ef • Erj 2 (4.2.21) 

等式成立当且仅当 

尸 I ” =以 I = 1 (4. 2. 22) 

这里~是某一个常数. 

[证明]对任意实数 卜定义 u ( f )= 五 （ g -7/) 2 = t 2 i ^ 2 -2^^ 
五7/ 2 ,显然对一切因此二次方程 u ( t )=0 或者没有实根 
或者有一个重根.所以判别式 

[物] 2 -從 2 • e v 2 ^o 

这正是 （4.2.21) .此外，方程 u ( t )=0 有一个重根~存在的充要 
条件是 

[ E ^ y - E ^ Ert^O 
这时以以-77) 2 = 0,因此 

”）= 0 , E (^~v) = 0 

从而 

尸 I 《0卜” = 0 1 = 1 

这就是 (4. 2. 22) 式.定理证毕 • 

由定理 4. 2.1 立即可以推出，若两随机变量的方差存在，则它 
们的协方差也存在. 

把定理 4. 2. 1应用到随机变量@及可以得到相关系 

讽 馬 

数的如下重要 性质： 
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性质 1 对相关系数 P , 成立 


Ip 丨彡 1 

(4.2.23) 

并且 P =1 当且仅当 


l\/^F Vdv ! 

(4.2. 24) 

而 /9=-1 当且仅当 



(4. 2. 25) 


性质 1 表明，当 = 时 J 与7；存在着完全线性关系，这时 
如果给定一个随机变量之值，另一个随机变量的值便完全决定. 

/9=1时，称为 完全正 相关； p = _ l 时，称为 完全负相关. 

有完全线性关系是一个极端，另一个极端是 P = 0 的场合.为 
此我们引进： 

定义 4.2.4 若随机变量 专与 V 的相关系数 p = 0, 则我们称 f 
与7? 不相关. 

性质 2对随机变量 f 与77,下面事实是等 价的： 

( i ) cov ( f ,”）=0; 

( ii ) f 与 t ; 不 相关； 

( iii ) E ^ rj ^ E ^ Erj ; 

( iv ) D ((+ rj )= D ^+ Drj . 

[证明]显然 （ i ) 与 （ ii ) 是等 价的. 由于 

9 t})= E^rj-E^ • Etj 
因此 （ i ) 与 （ iii ) 等价.又由于 

D (^+ rj )= D ^+ Drf +2 cov(f ,”） 

因此 （ i ) 与 （ iv ) 等价. 

独立性和不相关性都是随机变量间联系“薄弱”的一种反映， 
自然希望知道这两个概念之间的联系.首先，我们有 

性质 3若{与77独立，则 f 与77不相关. 

[证明]我们只对连续型随机变量给出证明 • 
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因为 f 与 r ; 独立，故其密度函数 pUahR (幻 p 2 ( y )， 因此 


COv(f ,7；) = 



'(x - E 专 ）（y - Erj ) p(x , y ) dx dy 


= f (x - E ^) p { ( x ) dx • f (y - Erj ) p 2 ( y ) dy = 0 

J —00 J —00 

结合性质 2 及性质 3 可 得：若 f 与 7? 独立，则 E^rj = E ^- E V 
及 D (^ rj ) = D ^ D v 成立.同样的论证可以证明类似的结论在 n 
个随机变量的场合也成立，即若 f ,…， I 是相互独立的随机变 
量，则 

E fHn= E €l E €2". E L (4. 2. 26) 

… +L)= 叱， 2+ .—叱 (4.2.27) 

由独立性可以推出不相关性，但是反过来是不成立的,试看下 
例. 



事实上，成立着7；=#,因此 

母 = 0, Er] = Ef =y-, E^rj = Ef =0 
9 r]) = E^rj-E^ • Etj = 0 

所以 f 与 77 不相关，但列联表明示 f 与7；不独立. 

—般地，若 f 服从对称分布，则77 = f 2 或77 = I f I 与 f 不相关似 
不独立. 
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下面是含意更多的另一个例子. 

[例 8] 设 0 月艮从 [0,2 TT ] 均勻分布, f = cos 0 ,rj = cos (6+ a ) , 
这里 a 是定数.我们有 

J cos t dt = 0 , Erj = J cos ( t + a ) = 0 

纪 = 士广“ 1， = h C 

1 1 

E(ri = -— cos t cos(t + a ) dt = — cos a 

2 TTJo 2 

因此 


cos 2 (t + a ) dt 


2 


p = cos a 


当 a = 0 时， p = l , ^ = r ] l 
当 a = 7 T 时 ， p = - l , ^=- rj \ 


存在完全线性关系. 


但是，当《=|或¥时 ， p = 0, 这时 f 与 77 不相关.不过，这时却有 


6 2 +77 2 = 1,因此|与 T 7 不独立. 

这个例子给我们：（1)提供了 p = ±l 之例； （2) 提供 p = 0 之 
例； （3) 说明不能由不相关性推出独 立性； （4) 说明即使 f 与77不 
相关，它们之间也还是可能存在函数关系.事实上，相关系数只是 
f 与7?间线性联系程度的一种量度. 

不过，在一种重要的特殊场合——正态分布，独立性与不相关 
性却是一致的.我们先对二元的场合来讨论这个事实. 

为此，我们先求二元正态分布 （3. 2. 22) 的相关系数. 

^i2 = I I ( x - Mi) (r - At 2 )p(^»r) dy 

J —QOJ — QO 


-( y -/*2) 2/ ( 2< T 3) 


2 


TTCT j (T 2 


yr 


p 


广 00 

drj - Ml ) 


士 -〆 2)exp {_^77(3 
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作变数变换 


2 






一 p 


r -^2 

0-2 


则 


/: 


{(T x (J 1 \J\-p tZ + pO-^2 t 2 ) 


dz dt 


pa l o'2 

2 77 



r 2/2 dz + ，〜 


yr 


p 


2 


因此 




= w 2 


Pi2=~~ i ^=P (4.2.28) 

^1^2 

这样说明了参数 P 是二元正态分布的相关系数. 

至此，我们已经完全搞清了二元正态分布中各个参数的含义. 
^ ，仏分别是两个边际分布的数学期望，而则以下列形式 
构成它的协方差矩阵 


r w 


p(T X CT 2 

2 


(4.2.29) 


yp ( T l ( T 2 cr 2 J 

另外，在上章 §2 例 4 中已指出，二元正态分布场合，独立的 
充要条件是 p = 0, 这 表明： 

性质 4 对于二元正态分布，不相关性与独立性是等价的. 

在§6中，我们将把这个结果推广到多元的场合. 

下面，我们给出一个边际分布是正态分布而联合分布不是多 
元正态分布的例子. 


[例 9] 


令#石 


g ( x ) = 


cos x 9 
0， 


<^<oo 


\x\<TT 
\x \ ^TT 


p{x,y)-(p{x)(p{y) 


'2 


g ( x ) g ( y ) 


<x 9 y<co 
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关于 Pb ， y ), 不难验证 ：（1) 是二元密度 函数； （2) 边际分布都是 
正态 分布； （3) 相关系数为0;(4)不 独立； （5) 不是二元正态密 
度函数.这些留给读者作为练习. 

独立性与不相关性一致的另一特殊场合是两个二值随机变 
量. 

性质 S 若 f 与77都是二值随机变量，则不相关性与独立性 
是等价的. 

[证明]设 f 取二值 a 及 C , 7；取二值6及 < 需要证明的是 
由=0可推得 安与 7 J 独立. 

记4= \^-a\ f B= \ rj = b\ 

从而 

又 = \i = c\ , 5 = \rt = d\ 

于是它们的示性函数 

1 = £ z £ 1 = vzi 

A _a-c ， B _ b-d 


由 coy ( l A 9 l B ) = El A l B - El A • E 1 b = P ( AB )- P ( A ) P ( B ) 
D 1 a = P ( A ) P ( A ), D 1 b =P ⑻ P ( S ) 

得到 


P^s = 


P { AB )- P ( A ) P ( B ) 

JP ( A ) P ( A ) P ( B ) P ( B ) 


这是因为 l 与 l fi 分别为 会与 v 的线性变换，而后者不相关. 
因而/>(从）即 

P{^ = a 9 rj = b\ =P\^ = a\ P\rj = b\ 

再由 （七 5), ( U ) 及 5) 的独立性可知 

P\^ = a ，V = ( ^\ =P| f = a| P\rj = d\ 

P\^ = c t Tj = b\ =P\^ = c\ P\rj = b\ 

P\^ = c 9 rj = d\ =P\^ = c\ P{rj = d\ 

至此我们已证得 f 与 77 独立. 

从上述证明中可得如下推论. 
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推论 1 对事件4与化若定义事件相关系数为 


Pab = Pi a i b = 


P ( AB )- P ( A ) P ( B ) 

JP { A ) P { A ) P ( B ) P { B ) 


则 4 与 B 独立的充要条件为 = 0. 


推论2 \ P ( AB )- P ( A ) P ( B )\^ 


(4.2.30) 


(4.2.31) 


[在抽样调查中的应用]抽样调查 （sampling survey ) 是社会 
经济中用得最多的统计方法.在国外，上至总统竞选前的民意调 
查，下至针对家庭的家计调查，十分普遍.近年，我国也已经进行了 
不少有效的抽样调查. 

为对总体的某个指标（主要是总值、平均值、比率和百分比） 
进行估算，特设计某种抽样方案，以随机的方式抽取若干个体作调 
查，利用所得数据算出估计值，并希望给出估计的精度.这是抽样 
调查的大意. 

最简单也是最基本的抽样方式是 所谓备 单随机抽样，这时总 
体的/ V 个个体中的每一个在一个大小为 n 的抽样中有同样的机 
会被抽到. 

下面的例子可以概括水稻产量、家庭收入、收视率等等具体情 
况，采用的是简单随机抽样. 

[例 10] 袋中有#张卡片，各记以数字匕，^，…，!^，不放 
回地从中抽岀〃张,求其和的数学期望与方差. 

[解]取一张时，其数字的均值及方差分别为 

及 

a 2 4!，- ?)2 

若以％记 n 张卡片的数字之和，以么= 1，2…，〃记第€次抽 
得的卡片上的数字，则 
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因此 

所以 


p \^ i ~ Y i \ =-^y » Z = l ，2, …, yv ， i=l ,2, ••- ,j 


E ^ = Y 9 D ^= cr 2 


E V n =E ii + 母 2 + … +E L = n ^ 

n 

D Vn = X + 2 S C0V (d) 

i = 1 I 矣 i < j 矣 n 

=ncr 2 +;i(n_l)cov ( 匕 ，“) 


(4.2.32) 


(4.2.33) 

这里用到么之间的对称性，也即抽签与顺序无关. 

在 （4.2. 33) 中令 n = ； V , 这时 ^ = + …+6是一个常数， 

因此仏^ = 0,于是 

^ 2 +^(^- 1 ) cov (^^ 2 )=0 

所以 


cov (^, , f 2 ) = 


最后得到 


Drj n = na 2 


yv-i 

n ( n - l ) cr 2 


(4.2.34) 




n(N - n ) 
N-l ' 


(4.2.35) 


与有放回抽取的方差 nc 2 相比，多出了一个因子称为有 

限总体修正因子 .当 n =\ 时，它等于1;而当 7 i = / V 时，它取值为 0. 
在不放回场合，添加抽取的信息量较大，即方差小，这与直观完全 
符合. 

特别地，若取匕=7 2 = — =心=1,匕 +1 =〜=6 = 0,则可以得 
到超几何分布的均值和方差的表达式. 

事实上，取1者当次品，取0者当合格品，则么记第 f 次摸到 
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的次品数， I 表示〃次共摸到的次品数，它服从超几何分布 （3.1. 
16) .这时 

f 4, (4 . 2 . 36 ) 

由 （4.2.32) 得到 

(4-2.37) 

这个答案曾在上节例16中得到过. 

由 （4.2.35) 得到 

( 4 . 2 . 38 ) 

四、应用实例 

下面提供有关均值与方差应用的若干例子. 

[例 11] (信号■■噪声模型）在当代通信理论中，我们关心 
的是未知信号 S , 信号在传输过程中不可避免地要受到噪声 7 V 的 
随机干扰，因此我们接收到的是受到随机干扰的观察值6它们满 
足如下模型 

i = S+N (4.2.39) 

为了正确恢复信号5,通常的做法是进行重复观察得到观察 
值 U 2 ，…，并对它们作平均 

七 P i= 七 P + +i Ni 

1 ° 

: S + 上 y (4.2.40) 

若假定噪声 ，义 独立同分布，均值为0,方差为 V ，则 

[丄 V % 1 =— (4.2.41 ) 

n frj n 

因此经过处理噪声方差降为原来的1，从而大大提高了信号对哚 

n 
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声的功率比，可以实现强噪声背景下弱信号的接收. 

雷达信号接收中正是利用上述模型. 

在石油地球物理勘探中，目前最有效的方法是人工地震法.利 
用阵列布置的检波器收到的信号既有地层结构的信息，也混有多 
种无用的噪声，通过各种校正后的叠加以还原信息的工作，正在全 
世界的许多超大型计算机上日夜进行. 

对物理量的测量通常要重复多次再取其平均也是根据这个模 
型.直观上，误差有正有负，取平均则相互抵消，有利于得到物理量 
的真值. 

[例 12] (估计量的无偏性与有效性）若手机的通话时间 

尤服从 Exp ( t ) ，在实际工作中需要确定唯一的未知参数 = 

这是数理统计中的参数估计问题. 

通常的做法是通过抽样获得 Z 的一个样本 A ，…，总，它们相 

互独立并且都服从 Exp (-) ，再由它们构造岀 统计置 "=^(1 ，…， 

总）作为 M 的估 计置. 

M 虽未知但是常数，而 A 则是样本的函数即随机变量，因此为 
了使成为 M 的有意义的估计量，通常要对它提出若干要求.很基 
本的一个要求是 无偏性 

E/Ji=fJL 

也就是说，在平均的意义下应当得到所期望的结果，无系统性偏 
差.显然无偏性是相当合理的一个优良性准则. 

满足无偏性要求的估计量很多，例如糸 ，/ i 2 …，！ 

等等都是.如何从它们中选取最好的一个呢？按 

n 

估计量本身的含义，自然希望估计量与被估计的参数的偏差越小 
越好.方差正是这样的度量，这样一来，由于= DX 9 Djl 2 = 
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ny _ ny _ 

^^•••,1^ = ^，因此！是其中最好的. 

Z n 

一般地，对于 M 的无偏估计 量义及 /?，若，则 称义比 
/ i " 有效. 因 此有效性成为另一个优良性准则. 

长期以来无偏-有效性成为评价估计量优劣的一个很通用的 
准则.不过，若注意到 

E(/jL-/jl ) 2 =D/Jb-¥(EfjL-fl ) 2 

则会发现还可以寻找这样的估计量，它有一定的偏度句 i - M , 但能 
得到更小的方差¥，并使“估计量与被估计的参数的均方误差” 
芯0；-^) 2 更小，这就开辟了有偏估计这一新 方向. 

[例 13] (现代证券组合理论）马科维兹 （ Markowitz ) 在50 
年代引进的均值-方差模型成了现代证券组合理论的基石.在这 
个理论中，假定有〃种证券可以投资，并把它们的收益率看作是随 
机变量，通常记为 q ，/^，…丄，相应的均值记为匕，~,*“彳„，方差 
记为 W , o *〖， …，0^，并以〜记/^与~的相关系数.一个相当自然的 
假定是 :投资 者都追求高收益而规避风险，也即希望有高的均值而 
不愿有大的 方差. 但是证券市场的历史记录表明，对于个别证券而 
言，高收益总是伴随着高风险.根本的岀路在于采用证券组合，即 
把全部资金分散投资于各种证券.假定投资于上述〃种证券的资 
金比例分别为％ ， W 2 ，…， w n ，则总的收益率为 


显然，其平均收益率为 

n 

f P = Er P = w i f i 
i= 1 

而方差则为 

n n 

二 Dr P = X H w i w jpij (r i (r j 

i = 1 j = l 

一般情况下 ，/ 要大大小于若进行充分分散化投资，例 


(4.2.42) 

(4.2. 43) 

(4.2. 44) 
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如％=丄“=1，2,…， n •则 ( t \ =\ ^ ^ PijO ' iO ' j - 在理想场合，若 
71 ^ »= 1 ； = 1 

组合中大部分证券弱相关甚至不相关，那么 < 将接近于 
\ 7 因此分散化投资的确能降低投资风险.这就是通常所 

汀 . i = 1 

说 的：不 要把所有的鸡蛋放在一只篮子里. 

进一步可以讨论寻找最优证券组合的问题 .一 个自然的提法 
是 :求投 资比例％ ，使％ 等于某个目标值，而让其风险 
CT ] 达到最小.这是一个线性约束下的二次规划问题，不难求解. 

马科维兹模型兼顾了金融市场中收益和风险两大要素，而且 
形式简便，为金融学的发展开创了新局面，他也因此获得了 1990 
年度的诺贝尔经济学奖. 

[例 14] (蒙特卡罗法的方差） 在第一章几何概率一节中 

我们介绍了积分计算的蒙特卡罗法.为计算积分/= //(4心，以 

区域包围它，然后产生在 G 中均 
勻分布的随机数对（\,^)，计/ V 对，其中 n 对落入阴影区域，并用 

- 砬 作为 7 的近似值.这里的 n 是随机变量 ， h = yv • 


/ 

M(b-a) 


，因此芯/ = /， 


; M\b-a)\ M\b-a ) 2 

I = - ； - un = - 1 - 

N 2 N 2 


N 


I 

M(b-a) 


M(b-a)-/ 

M(b-a) 


I[M(b-a)-r 

N 


(4.2.45) 


因此当包围积分区域（阴影部分）的区域 ^ 取得越小时，积分计算 
的误差越小.降低方差是蒙特卡罗法的重要研究课题之一. 

总之，随机现象具有不确定性，因此随机变量具有正的方差可 
以说是这种不确定性的反映，是其固有的特征.在许多情况下，人 
们希望减少不确定性，降低方差.这一般通过三种途径实现，一是 
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降低本身的变差，例如例14;二是通过平均，例11及例13均是如 
此; 三是加大观测次数，以上各例都是. 

但是也有希望增大方差的场合，下面略作评论. 

对于许多服务行业，过分集中的客流难于应付，例如车站、银 
行、食堂和旅游观光地等等，因此采取了各种减少拥挤的办法，无 
非是为了增大客人到达时刻的方差. 

以前讲过，各种机会游戏都是人们创造的随机现象，从而也就 
创造了各种方差.有时为了追求刺激，还特意加大方差.彩票就是 
例子.•绝大部分彩民一无所得，个别幸运儿成为百万富翁. 

统计学与决策科学中广泛采用的随机化措施也基本上可列入 
此类，它们开拓了人类主动利用随机性的新局面. 

希望读者在日常生活中找岀更多的例子. 

五、矩 

数学期望，方差，协方差是随机变量最常用的数字特征，它们 
都是某种矩.矩 （ moment ) 是最广泛使用的一种数字特征，在概率 
论和数理统计中占有重要地位.最常用的矩有两种 ：一种 是原点 
矩，一种是中心矩. 

定义 4.2.5 对正整数 / c ， 称 

m k = (4.2.46) 

为 k 阶原 点矩. 数学期望是一阶原点矩. 

由于 k < 1+1 ^ r ，因此若&阶矩存在，则所有低阶矩都存在. 
定义 4.2.6 对正整数 A ：， 称 

c k = E (^- EO k (4.2.47) 

为 k 阶中 心矩. 方差是2阶中心矩. 

由于 

c k =EU -EO k = i(^) (me 
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故中心矩可通过原点矩来表达，反之, 
=E^ k =E[(^-m l )+m l ] k 



(4.2. 48) 


(4.2.49) 


因此当已知数学期望之后，原点矩也可以通过中心矩给岀. 

此外对正数 P 还可以定义 p 阶原点绝对矩 E 及 p 阶中心 
绝对矩 以卜 它们较少使用 • 

[例 15] 设 f 为正态随机变量，其密度函数为 

1 -*2/(2tr2) 


p(x) 


V / 2 tt « 


因此 E 专= 0,故 


c k 




-*2/(2<r 2 ) 


y/2TTC 


dx (4.2.50) 


显然 J 为奇数时， q =0; A 为偶数时， 



(4. 2.51) 

特别地 

c 4 = 3 a - 4 (4.2.52) 

对于多维随机变量，可以定义各种混合矩，例如 

E(i - Ei) k (rj - Erj ) 1 (4.2.53) 

称为&+/ 阶混合中心矩. 协方差是二阶混合中心矩，是其中最重要 
的一种.这里我们不一一赘述了. 


六、分位数 


矩之外的主要数字特征是分位数.对分布函数 F { x ) ，常需作 
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如下计算:对 0<P<1 ， 要找^使 

F ( x p ) = p (4.2.54) 

这相当于求分布函数的反函数.当 F (幻连续又严格单调上升时 
(大部分连续型分布符合这个要求），显然有唯一解，但一般情况 
下则可能无解或有许多解.因此通常采用如下 定义： 

定义 4.2.7 对0</><1，若 

F ( x p )^ P ^ F ( x p + 0) (4.2.55) 

则称^为分布函数 F (幻的 P 分位数. 

最重要的分位数是、 5 ，称为 中位数 （ median ). 它是与均值竞 
争的中心趋势度量，优点是少受个别特大或特小值的影响，具有一 
定纠错功能，缺点是不像均值那样容易作数学处理.目前各国已倾 
向于用中位数表征收入水平的中心趋势.此外，近年来，金融界已 
普遍采用损失分布的分位数作为风险的一种度量，称为风 险价值 
(value at risk ). 

+ 七、条件数学期望，最佳线性预测 

在第三章§2我们曾经引进了条件分布函数的概念，现在要 
相应地引进条件数学期望的概念，并说明它的应用. 

为方便起见，我们讨论两个随机变量 f 与7?的场合，假定它们 
具有密度函数 pU , y ) ，并以 p ( yu ) 记已知的条件下,77的条 
件密度函数，以/>,(%)记 f 的密度函数. 

定义 4.2.8 在 f = % 的条件下，77的 条件数学期望 定义为 

E \ t ] \ ^ = x \ = f yp(y \ x)dy (4.2.56) 

J -00 

条件数学期望在预测问题中起重要作用.问题这样提 出：若 
fry 是相依的随机变量，我们要找 f 与7?的函数关系，设这个关系 
是 ydQ ), 如果以 2 及芯|>(0] 2 都存在，我们的目的是找函数 
h ( x ) ，使 r ; 与 &(€)“ 尽可能靠近”，这里的“靠近”需要一个标准, 
最常用的是高斯的最小二乘法 （least squares ) ，这时要求使如下的 
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均方误差达到 最小： 

E [ rj - h (^)] 2 = min (4. 2. 57) 

因为 

E[v - = [ f [y - h ( x )] 2 p ( x 9 y)dxdy 

J — 00 •/ 一 oo 

00 的 

=I Pi(^){| [y - h(x) ] 2 p(y I x)dy^ ix 

(4.2.58) 

由 （4.2. 8) 知道，当办 （ x ) = £ 1 ry If = x | 时， f [ y - h { x ) ] 2 • 

达到最小,从而使 (4.2.58) 达到 最小. 即当我们观察到 f = 
%时 , E U 是一切对7?的估值中均方误差最小的一个. 

今后我们将称 y = 4 =幻是 r ; 关于 f 的 回归. 

如果以 EUKl 记随机变量 f 的如下函 数：当 时，它取值 
.这样定义的劓…以是随机变量，对它可以求数学期 
望，并有下列关 系式： 

E V = E [ E \ V \ ^)] (4.2.59) 

这是条件数学期望的一个极端重要的性质，称 为重期望公式 ，有广 
泛应用，下面仍对连续型随机变量的场合加以证明. 

E [ E \ t ]\^\ ] = [ E \ rj \^ = x \ p l ( x)dx 

J - 00 

= I [ J yp(y I x ) dy ^ p l ( x)dx 


[例 16] 



yp{x 9 y) dxdy = Erj 


若 （ fr ?) 服从二元正态分布，则由 （3. 2. 29) 知 


p{y I x )= 



l 

2C7*2(1 - P 2 ) 


^ ~ (^2 + P ~( X ~ ^1 )) 
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这是正态分布 #卜 2 +/> ) ，《 卜 〆 )) ，因此 

E\rj \ ^ =/ i , 2 + p —(x - fi x ) (4. 2. 60) 

o-i 

值得提醒的是 :这时 条件数学期望是％的线性函数. 

通常 ，（ fT 7) 的联合分布函数是不知道的，或者虽然知道但是 
却不易算出五.假定已知 f 与7/的数学期望仏，仏，标准 
差 q ，。及相关系数 p , 这时可以降低一点要求，改为求最 佳线性 
预测. 也就是说，把 h ( x ) 限定为％的线性函数 L ( x )= a + bx ， 求 a ， f ， 
使 

e(a f b ) = E[rj - (a + b ^)~\ 2 (4.2.61) 

达到最小. 

把 e ( a ,6) 对 a ,6求偏导数并令它们等于0，得到 

2 F [ rj - (a + b ^) ] = 0 
2 E [ (”- （a + 6 彡 ）） 彡] = 0 

整理后变成 


因此解得 


a + 6/x t = fju 2 
叫 + bE^ 2 - E^tj 


(4.2.62) 


a =/ x 2 - bfi x , b = cov (、，”) = p . — (4. 2. 63) 

(T\ °"l 

最佳线性预测为 


L(x) = fi 2 + p —{x - fi x ) (4.2.64) 

o-i 

我们称 （4. 2. 64) 为 V 关于会 的线 性回归 • 这个结果与 
= M —般是不同的，但是在 （ f , T ；) 是二元正态分布的场合， 
由 （4. 2. 60) 知两者是重合的，所以在正态分布场合，最佳预测是 
线性预测，这是一个十分重要的结果. 

进一步，我们还可以计算最佳线性预测的均方误差. 


• 224 - 



E[ri - L(^) ] 2 = E[rj - /jl 2 - b(^ - /x Y )] 2 
= a \ + b 2 ct \ - 26cov (彡， 77 ) 

: ct \ - COv2( ㈣ =4(1 -P 2 ) (4.2.65) 

因此预测误差同 r ? 的方差有关，也同 f 与 77 的相关系数有关，特别 
当 Ip I = 1时（这时 f 与77有线性关系），预测误差为0,也就是说, 
可以完全准确地进行线性预测.从这个讨论再次看出，相关系数反 
映了 f 与 T 7 线性联系的程度. 

最佳线性预测理论中的另一个重要事实是.•预测值 6 = 
与残差 77-$ 是不相关的.证明 如下： 

由 （4. 2. 64) 知 


V = =/ x 2 + p —(^ - fi x ) (4. 2.66) 

因此 

Er ] = fi 2 (4. 2. 67) 

E( v - v )=0 (4.2.68) 

这样一来 

cov ( t 7,77 - tj) = E[(rj - fJL 2 )(rj - rj )] 


A 卜 W [(口 2) 一 O ，)]} 


= p—(pcr l cr2 -p—cri) = 0 (4.2.69) 

o-i o - { 

这个事实可以解释为：残差中已不再包含对预测 ^ 有用的知识. 
因此观察值77被分解为两个不相关的随机变量之和： 

97=97 + ( 77 - 77 ) (4. 2. 70) 

以上是 二阶矩理论， 或称均 值-方差理论 ，它以最小二乘法为 
准则，研究最佳线性预测.它是概率论中最有实用价值的理论之 
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# §3 .熵与信息 ® 


一、 不肯定性与熵 


随机试验的主要特征是在试验之前无法肯定地知道哪一个结 
果将会出现，即随机试验具有一种不肯定性.但是对于不同的随机 
试验，这种不肯定性的程度却可以有很大的差别.譬如，以射击为 
例,若有两个射手，他们的射击情况分别以下列两个随机试验来描 
述： 

甲 A ) 乙:(七 A ) 

\0. 5, 0.5/ \0. 99, 0.01/ 

这里4表示射中目标 J 表示未射中目标，下一行是相应的概率. 

显然这两个试验的不肯定性程度很不相同，甲的不肯定性要大仉 

多.假如还有第三个射手，用来描述其射击水平的随机试验为 

M :( A， 3 ) 

\0.7,0. 3/ 

显然应认为此试验的不肯定性程度介于上述两者之间. 

因此有必要从数值上估计各种各样随机试验的不肯 定性利 
度，即我们希望找到一个量，用它可以合理地作为不肯定性程度的 
度量.这样的一个量已经被美国数学家香农 （ Shannon ) 找到. 

假定我们研究的随机试验 ct 只有有限个不相容的结果义， 
^，•••，人，它们相应的概率为 P ( A ) ， P (4) ，…， P ( A n ) ，满足 


= 简写 如下: 

1 


^1 » ^2 9 *** » ^-n \ 

P(^l) ，…， 


①此节内容与本书其余部分基本上独立，初学时可跳过. 
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我们希望找到一个量 #( a ) 来度量 a 的不肯定性程度.这个 
量当然依赖于 p{A x ) , p(A 2 ) , p(A n ) ,因此亦记为 
HipiA,) 9 p(A 2 ) ，…， />( 人 ））♦ 

为了具体定出好 ( a ) 的表达式，我们先考察一下，究竟 
应满足什么要求. 

首先，我们要求 

( i ) //是 P (次）的连续函数. 

这个要求相当自然 ，一 方面 〆 岑）的微小变化当然不应引起 
H 的巨大变化，同时也只有连续函数才便于数学上处理. 

其次，我们考虑一种特殊的随机试验，这种试验有〃个结果， 

且各个结果出现的概率均为1，以后简称为有 n 个等概结果的试 

n 

验.在这种特殊试验中， " 当然应该只是〃的函数，并且当〃增大 
时，也即试验有更多可能的结果时，其相应的不肯定性程度也随之 
增加. 

因此，我们对丑提出 要求： 

( ii ) 对有 n 个等概结果的试验，7/是 n 的单调上升函数. 

对 //( a ) 的第三个要求比较复杂，它牵涉到把一个试验分为 
相继的两个试验.我们通过简单的例子来阐述其含义. 

考虑有三个结果的试验 

/ A l 9 A 2 ,A 3 \ 

这个试验的不肯定性程度 //( a ) •为了确定到底是 

哪一个结果岀现，我们也可以进行这样相继的两个试 验:在 第一个 
试验中，先确定到底是岑出现，还是皂或4出现，即进行下列试 
验： 



显然 H ( ai )= H( Pl , p 2+ p 3 ). 如果皂出现（其概率为 h ) ，则试验结 
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果已完•全确定，无须再作进一步的 试验; 但是如果是 S 岀现（其概 
率为 p 2 +/> 3 ) ,则尚须进行如下试验，才能最后确定试验 结果： 

fA 2 , A 3 \ 

a 2 : p 2 p 3 

、 P2+P/P ， P3 ) 

这个试验的不肯定性程度为丑一 l . 

\P 2 + P3 P2+P3 / 

可以直接进行试验《，以确定伞,毛中哪一个结果出现•，但 
是若先进行试验^，然后有必要时（概率 P 2 + P 3 ) 再进行，也可达 
到同样的目的.因此，我们自然认为这两组试验所含的不肯定性程 
度是一样的，即 

h (P"P2 ， P3) =h (Pi ， P2 + P3) +(p 2 +p 3 ) // l ， - T - ) 

VP2+P3 P 2 +P 3 / 

这些考虑启发我们对 // 提出下列 要求： 

( iii ) 一个试验分成相继的两个试验时，未分之前的//是既分 
之后的"的加权和. 

条件 （ i )、（ ii )、（ iii ) 已完全确定//的形式.为书写方便起见， 
下面简记 P (4) 为 /V 

定理 4.3.1( 香农）唯一满足 （ i )、（ ii )、（ iii ) 三个条件的// 
具有下列 形式： 

n 

H = - C ^ Pi lo gPi (4.3.1) 

i= l 

其中 C 是正常数. 

为证明这个定理，要用到下述分析引理. 

引理 4.3.1 若 /( n ) 是〃的单调上升函数，且对一切正整数 
m 9 n 成立 

f ( mn ) = f ( m ) + f ( n ) (4.3.2) 


则 
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f ( n ) = Clog n 



其中 C 是一个正:常数. 

[证明]由（ 4 .3.2)可得/( I ) = 0,所以对其他正整数 m ， 有 
/( m ) > 0 . 另一方面， 

f ( n ) = f ( n ) + f ( n ) = 2/( n ) 

/( 打 3 )=/(打 2 ) +/(«) = 3/( n ) 

一般地 

f ( n ) = kf ( n ) (4.3.3) 

若是两个任意的正整数, mfl , 选任意大的正整数 l 再 
取正整数 Z , 使 

m l ^ n k < m l+l (4. 3.4) 

由函数的单调性 

f ( m l ) ^ f ( n ) < 

由 （4.3.3) 得 

Z/(m) ( kf ( n ) < (Z + 1)/(m) 

因此 



对 （4. 3. 4) 取对数得 

/log m ^ A:log n < (/ + 1 )log m 

因此也有 

l log n / + 1 

- ^ - < - 

k log m k 

这样一来 

f ( n ) _ log n < 丄 
f ( m ) log m k 

上式对任意 大的& 都成立，因此 

f ( n ) _ log n 
f ( m ) log m 

由于的任意性即知 


f ( n ) = Clog n 
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其中 C 是常数，再由 /( n ) 是 n 的上升函数，可知（:是 正的. 

现在可以来证明定理了. 

[证明]首先，记/ = f ( n ) ，按条件 （ ii ) 知 

\ n n n J 

/( M 是 n 的单调上升 函数. 对有个等概结果的试验，可以把它 
分解为 w 个有 n 个等概结果的试验，因此由条件 （ iii ) 知 

f ( mn ) = f ( m ) + m - — f ( n ) = f ( m ) +/(/ i ) 

m 

利用引理 4. 3.1 立刻得到 

丑(丄，丄，…，丄 ）= Clog n 
\ n n n / 

其次，当 Pl , p 2 ，… ，几 是有理数时，不妨记仄= 冬 ，考虑一 

i n i 

i = 1 

个有个等概结果的试验，而这个试验又可以看作两个相继 

的试验，其中第一个试验以概率凡岀现结果而第二个试验，则 
是在出现结果岑的基础上，考察它是出现〃 < 个等概结果中的哪 
一个，因此按条件 （ iii ) 应有 

n n 

C1 °g X n i = H (Pl^P2r- 9 P n ) + C X Pi l °^ U i 

isr 1 i= 1 

于是 

n n 

H(Pi »p 2 »**• fPn) = C[log^ n i - ^ P t log n] 

i=1 i = 1 

n n 

=C i X Pi( l0 g X U J ~ l0 S n .) 1 

1=1 j=l 

n 

=- 

t = 1 

最后，对任意的实数仏，/ > 2 , 可用有理数来逼近它，但按 
条件 （ i ) 知//是各自变量的连续函数，因此上述表达式仍然成立， 
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从而完成了定理证明. 

定理中的系数 C ， 可以根据方便选择，它取决于度量单位.常 
用的度量单位有二进制单位及十进制单位，前者对数的底取为2, 
后者用常用对数. 

在 （4. 3. 1 ) 中，若= 0,则相应的项 Pi log Pi 定义为零，因此在 
试验中增减零概率结果不影响不肯定性，这是很自然的. 

以后将称 

n 

H(a) ^piA^log p(Ai) (4.3.5) 

is 1 

为试验 a 的熵 （ entropy ). 

从下面例子可以看出，熵确实可以度量试验的不肯定性程度. 
[例 1] 计算本节开始时射击例子中射手甲，乙，丙射击试验 
相应的熵. 

好甲"一 i~ lg l =lg 2=0 . 301 0 

H Zj =-0.99 - lg 0.99-0. 01 - IgO.Ol =0.024 3 
H m =-0.1 - lg 0.7-0.3 - lg 0.3 =0.265 3 
这里均用十进制单位.甲的熵最大，乙最小，丙介于其中，与直观完 
全符合. 

[例 2 ] 英文字母出现的熵 • 

熵的概念的引人与通信理论的发展密切相关，后者需要解决 
最有效而无错误地传递消息这一任务.用文字给岀的消息通常经 
过编码变成某种信号，经信道传输，到达接收地点，再经译码还原. 
当然编码的优劣将直接影响通信的效率.最简单的办法是把每一 
个字母都转换成相同长度的码子，但正如本书一开头就看到的那 
样，在英文中不同字母出现的频率很不 相同. 因此更有效的办法当 
然是把最常出现的字母编成较短的码子，而把不常岀现的字母编 
成较长的码子.这个问题与英文字母岀现的熵有直接关系. 

假如把26个字母连同分隔用的空格共27个符号，看作是等 
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可能出现的，则相应的试验（接收到一个符号，要判断它是哪个字 
母或空格）的熵为 

H 0 = lg 27 = 1.431 4 

但是接收到一个符号，它是空格的可能性比是 z 的可能性要大200 
倍,也即不肯定性程度似乎不应该有这么大.事实上，如果我们考 
虑到不同字母及空格的出现概率（数值见第一章§ 1) ,则 

27 

H i =- ^PihPi = 1 - 213 
1 

也就是说不肯定性要小不少.当然如果再注意到英文中前后字母 
间的联系，例如 q 总是接着11,则这种不肯定性还要小得多. 

二、熵的基本性质 

下面讨论用 （4. 3. 5) 定义的熵的若干基本性质，通过这些研 
究将进一步看到熵作为不肯定性程度度量的合理性. 

首先考察一下函数 cp ( x ) =-^ log ^ 的性质，显然对于％> 0 ,均 
有 < p ”（ x ) < 0 ,因此幻是 （ 0 , oo ) 上的上凸函数，即对于任意的 
p > 0 , g > 0 , 且 p + 夺= 1 ，不等式 

P 屮 Oi ) + q < p ( x 2 ) < ( p ( px x + qx 2 ) (4.3.6) 

对一切 成立. 

一般地，不难用归纳法证明如下分析引理. 

引理 4.3.2( 延森 （ Jensen ) 不等式） 设史（幻是 [ a ,6] 上的 
上凸函数，而 h ， x 2 , … ，& 是 [ a ，6] 中的任意点 , Ai , A 2 ，…， A ft 是和 
为1的正数，则 

X ^ H X ( 4 . 3 . 7 ) 

*= 1 i = 1 

等号成立当且仅当诸&相等. 

下面证明熵的若干性质. 

性质1 当且仅当 P (次）“=1，2,…， n 之中的一个等于1时， 
熵好= 0,其他情况下，熵恒 为正. 


• 232 - 



性质 2 在有 ri 个可能结果的试验中，等概试验具有最大熵, 
其值为 log 

[证明]在引理 4. 3. 2中取 〆 ％) = - : dog x , x i - p ( A t ) , 

A i = 丄，代人 (4.3.7) 式，得到 
n 

— ^ —log — 

n fr [ n n 

即 

H ( p { A x ) ,••• , p { A n )) ^ log n , =丑(丄，…，丄) 

\ n n / 


下面考虑两个试验 a 及比设它们的结果及概率如下 


( …’心 \ 

n 1 B 1 ，…， 

B n \ 

• u (\) ，…， 


p(B n )) 


又以邱 记这两个试验联合起来所构成的新试验，于是试验^的 
可能结果为 A k B l 9 k = l 9 2,- 9 m 9 l =\,2 9 …， n , 相应的概率为 
p (圮晃）•按定义 

H(ap)=- Xp(^)logp(A,B z ) (4.3.8) 

k，l 

性质 3若试验 a 与试验0独立，则 

H(afi) = H(a) + H(/3) (4.3.9) 


[证明]在这种场合 P (^ B z )= P (4) P ( A ) ，因此 
H(ap) =- X P( A k)p( B i)^ p( A k)p( B i) 

k,l 

=-Xp ( 火 ) P(A)[logp ( 火） +logp(A)] 

k，l 

= H ( a ) ^ H ( p ) 


三、条件熵与信息量 


为了进一步研究熵的性质，需要引进条件熵的概念.设 a, 0 
是前述两个试验，以 P (尽丨 A ) 记试验 a 出现结果火的条件下， 


• 233 - 



试验出现结果尽的概率，则 

n 

H Ak ( P )=- (孕丨 A A ) logp(^l A k ) (4.3.10) 

u 1 

是在试验 a 出现火的条件下，试验0的熵. 

我们称平均值 

m 

H a ( p ) = ^ p ( A k ) H Ak ( p ) (4. 3.11) 

k = l 

为在试验 a 实现的条件下试验的条件熵. 

下面指出 圯 (沒）的某些重要性质. 

性质 1 H ( a p )= H ( ot ) + H a ( fi ). (4.3. 12) 

[证明] H ( a ^) =- 

k.l 

= - ^ p (^ k ) p(^i I ^ k ) Uogp ( A k ) + \ ogp ( B t I A k )] 

k,l 

=- ^P(^k) l °&P( A k) ^P( B l 1 A k) 

k l 

- ^ p (^ k ) Zp (纥丨 i 4 Jlogp ( fi z I A k ) 

k i 

= H ( a ) + H a ( p ) 

特别当 a 与 独立时， H a ( p ) = H ( p ) ，此时 （4. 3. 12) 化为 
(4. 3. 9) 式. 

同理， 

H ( ap )= H ( p ) + H 0 (oO 

这个性质称为熵的加法法则.推导熵的表达式时的条件 （ iii ) ， 
事实上是加法法则的另一种表述. 

性质2 足(/3)是非负的•又若所有的 pK ) >0,则当且仅 

当 W )=0( 纟=1,…，肌）时，丑 a (/?) = 0 才成立，此时还有好 （ M ) 
= H(a). 

这些性质用条件熵的定义立即得到.后一结论说明，只有当试 
验 a 的任何结果都使试验沒的不肯定性完全消除时，才有 
H a ( p ) =0,此时 a 的结果完全决定了 0的结果 • 
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性质 3 H a ( p ) ^ H ( p ). (4.3.13) 

[证明]在引理 4. 3. 2中，取史（太） =- x \ o ^ x , \ . = p { A t ) , 
Xi = p ( B k I A t ) , M 

m 

一 2> U ) p ( 足 I ^) logp(BJ A ,) 

i= 1 

m m 

矣- [ Xp ⑷ P (圮丨次)】 

i= 1 i = 1 

=- p ( B k )\og p ( B k ) 

两边 对&求 和即得 

m n n 

- P ( A i ) Y , P^ B k 1 A i ) lo ^ P( B k \ a .) ^ p ( B k )\og p ( B k ) 

*=i k=i k=i 

此即 

H a ( P ) ^ 

此外，显然有 

H ( ap )= H ( a ) + H a (/ 3 ) ^ H { a ) +//(/?) 

关系式 （4. 3. 13) 的涵义不难理解，因为进行试验《之后 ，一 
般对试验的结果会增加了解，从而消除了部分不肯定性，只有当 
a 与0独立时， H a ( p )= H ( p ) ，此时 a 的结果无助于减少芦的不 
肯 定性. 因此量 //(/?) ~ H a ( p ) 是作了辅助试验《之后试验不 
肯定性的减少量，即是由于试验《的进行而得到的有关试验的 
信息. 

记 

I ( a 9 p )= H ( p ) - H a ( p ) (4.3.14) 

并称之为含在试验 a 中的有关试验的信 息置. 

因为 

H ( ap )= H ( a ) + H a ( p ) = H ( p ) + H fi ( a ) 

所以 

H ( a ) - H p ( a )= H ( p ) - 
即 
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I(p 9 a) = I(a 9 p) 

因此 0 中含有 a 的信息量与 a 中含有月的信息量相等. 

显然 

0彡 I ( oc ,/ 3 ) ^ H ( a ) 9 0 ^ I ( a ^) ^ //(^) (4. 3. 15 ) 

当且仅当 a 与谷独立时，才有 /( a , i 8) = 0, 此时一个试验不含有另 
一个试验的任何信息量.另一个极端情形是当 a 的结果完全决定 
/?的结果，此时圪(/3)=0,从而/(«,/3)=丑(沒)•特别地，/(々,々）= 
H ( p ) ，这就是说，包含在试验中有关试验芦的信息量等于^的 
熵，因而熵也是信息量 v 

四、连续型分布的熵 

对于具有密度函数的连续型分布，可以类似地定义它的熵.设 
随机变量 a 及々的密度函数分别为 PU ) 及 g ( y ) ，它们的联合密 
度函数为 / U ， y ). —种比较显然的定义熵的办法是仿照离散型场 


合，定义 

H{a )： 

=- [ p(x)log p(x)dx 

J — 00 

(4.3. 16) 


H(ap) 

=-| f /( x,y) log f(x 9 y) dxdy 

(4.3. 17) 

和 

H a ( p ) 

= f f/(x 9 y) log dx ^r 

(4.3. 18) 


H,(a) 

=| ^f(x 9 y)\og^^ Ax Ay 

(4.3. 19) 


这样定义的熵及条件熵具有许多离散型分布的熵的性质.简单罗 
列 如下： 


性质1 若 a 限制在 F 中变化，则 F 中的均勻分布有最大熵, 
其值等于 log m ， 此处 IFI 是 K 的测度. 

性质 2 H ( ap )= H ( a )+ H a (/ 3 )= H ( l 3 )^ H fi ( a ) 9 

而且 
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HSP) 

因而 

这两个等号成立的充要条件是 a 与独立： 

第一个性质说明，从熵的观点看，均勻分布具有特殊地位.令 
人惊奇的是，常见的另外两个分布一 r 正态分布与指数分布，从熵 
的观点看,也具有特殊地位. 

性质 3设 /> U ) 是一元密度函数，其标准差为 C 7, 则当 />( 幻 
为正态分布时其熵最大，其值等于 logv ^ o •(对数以 e 为底）. 

[证明]不失一般性，设其数学期望为零，这时要求/>(幻满 
足约束条件 

Jp( x ) d% = 1 

及 

cr 2 = Jx 2 p(x)dx 

又使 

H(x)= - jp ( x)lo^ p(x)dx 
达到最大.根据变分法,这相当于要求 


I [ - p(x)log p(x) + Ap(x) + fix 2 p(x)]dx 

达到极大，即 

-1 - log p ( 无 ） + A ^ fix 2 = 0 
选取常数使其满足约束条件，即得 

P(x) = -^e~ x2/(2ff2) 

此时 

2 

H(x)= f e~ x2/(2g2) [ logV^rro- + —t] dx 
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: \og^/2^T °" + ~Y = log^/2ite < 


在 n 元场合，假定分布的协方差矩阵为 JS =( q ), 则 

p(x) = --- rexp 卜士 xS _1 x T ! ， x^R n 

( 27 t) n/ 2 (deiX) T 1 2 J 

达到最大熵 log (2 ire) n/2 (det 之) + • 

性质4 若密度函数 /> U ) 当 K 0 时等于 0, 并且其均值为 

则指数分布 Exp (士)，即 


p ( x ) = —— e ~ x/a , x >0 

a 

达到最大熵,其值为 log efl. 

证明方法与推导正态分布时完全一样，不再写出. 

连续熵的性质也有与离散熵不同的，特别是它的数值会因坐 
标系的改变而改变.因此还存在着别种关于连续熵的定义,不过这 
里不准备再深入讨论了. 

熵是一门新兴学科——信息论中的基本概念.它的引人使得 
人们能对随机现象的不肯定性进行度量，是具有重大意义的. 


§4.母函数 


一、整值随机变置与母函数的定义 

在离散型随机变量中，那些只取非负整数值0,1,2,…的占有 
重要的地位.事实上，我们所遇到的离散型分布如二项分布，超几 
何分布，泊松分布，几何分布，巴斯卡分布，负二项分布等都是取非 
负整数值的. 

我们称取非负整数值的随机变 量为整值随机变置. 对于整值 
随机变量，有一种处理方法很便于应用，这就是母函数法. 
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若随机变量 f 取非负整数值，且相应的分布列为 

(4.4.1) 

则称 

P ( s ) = ^ p k s k (4. 4. 2) 

k 二 0 

为 f 的 母函数 （generating function ). 由佚名统计学家公式知 

P ( s ) = Es s (4.4.3) 

因为母函数由分布列完全决定，因此亦称它为该概率分布的 
母函数.由于 

= 1 (4. 4_ 4) 

Jt = 0 

由幂级数的收敛性知道 P (0 至少在—致收敛且绝对收敛. 

因此母函数对任何整值随机变量都存在. 

00 

对于任一数列也可定义 ^ a n s B 为其母函数，但我们以 

a = 0 

后只讨论概率分布对应的母函数. 

母函数在19世纪初被拉普拉斯引进，它是在概率论中第一个 
被系统地应用的变换法，对后来在概率论中引进其他更有用的变 
换——如下节要介绍的特征函数——有启发作用.本书把变换法 
的重点放在特征函数法上，至于为什么要单独介绍母函数，首先是 
由于它比较简单,在整值随机变量场合很有用，可以作为特征函数 
的 前导； 其次，在随机过程中要用到有关 结果； 最后还由于从母函 
数法发展起来的 Z 变换法已成为解决许多问题的重要工具.但 
是，跳过本节母函数的内容,并不太影响本书以后章节的学习. 
下面求几种分布的母函数. 

[例 1 ] 二项分布 

P(s)= = G ” s ) n (4. 4.5) 

k = 0 
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[例 2] 超几何分布 


P ( s ) = 



(4.4.6) 


这是超几 何级数 ，是一种特殊函数，处理起来不大方便，在概 
率论中也很少用，由于超几何分布的名称来自于它，因此我们顺便 
提及. 


[例 3] 


[例 4] 


泊松分布 


k = 

几何分布 






P ( s ) = ^ q k ~ l ps k = p s ^ ( qs ) k - 


p s 

l - qs 


(4. 4.7) 


(4.4. 8) 


二、母函数的性质 


1. 唯 一性. 由分布列 （ 4. 4.1) 用 （ 4. 4.2) 定义母函数， 这显然 
是唯一确 定的； 下面证明，由母函数也能唯一确定分布列. 

设概率分布及丨％丨分别具有母函数 P ( s ) 及 0(0, 而且 
P ( s )=0( s ), 因为都是幂级数，且当时收敛， 
对 P ⑴及 P ⑴求导 A 次，并令 s = 0, 则得 

灸！ Pk = P { k ) (0)= Q ( k ) (0)= k \ q k 
因此 J = 0, l ，2, …即两个概率分布一样. 

这样一来，概率分布与母函数是一一对应的，因而对于概率分 
布的许多研究可以化为对所对应的母函数的研究，因为母函数是 
幂级数，具有许多良好的性质，便于处理，所以母函数是研究整值 
随机变量的有效工具. 

2. 母函数与数字特征.母函数的应用之一是利用它能求得概 
率分布的数字特征，若 
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即 


尸⑴ = [Pf/ 

k = 0 


P ，（ S)= ^ kp k s k ~ l , P ff (s) = YKk - l)p k s k 

A = 1 k = 2 

这两个级数至少在 bl < l 是收敛的. 

当数学期望 j ^ k Pk 存在时， 


尸，（1)= ^ h Pk = (4.4.9) 

k = 1 

当数学期望 V = 00时 Jim /^ s ) = 00 • 
k = \ mi 

同样，当方差％存在时， 

EUU - 1)] = ik(Jc — l ) Pk = P ”( l ) 

h = 2 

故 

D ^ = E ^ 2 -( E ^) 2 = P ,, ( l )+ P , ( l )-[ P , ( l )] 2 (4.4.10) 

公式 （4. 4. 9) 及 (4.4.10) 是计算数学期望及方差的简便公式. 

[例 5] 二项分 布:母 函数为 P ( s )= ( q + P s ) n . 

E ^ = P r ( l )= n ( q + ps ) n ' l p\ s ^ l =np 
P ,, ( l )= n ( n - l ) ( q + ps ) n ~ 2 p 2 \ s={ = n ( n - l ) p 2 
D ^ = n p 一 np +np — n p =npq 

这些结果在 §1 与 §2 中曾直接计算过. 

[例 6] 泊松分 布:母 函数为 

E ^ P t ( l )= e x(s ~ l) • Al i=1 =A 
P"(l)=e A(5 - 1} - A 2 I 5 = 1 =A 2 
= A 2 +A-A 2 = a 

这些结果在§ 1与§2中也直接计算过,这里的计算较方便. 
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三、独立随机变置和的母函数 


若随机变量 专与 V 相互独立，它们都是整值随机变量，概率分 
布分别为 U , 丨及 i 6,丨，而相应的母函数为 >1(0 及下面计算 
随机变量 （ = f + 的概率分布.显然 （ 也是整值随机变量，若记 
c r = 尸 l ( = ri ，则 

C r =a o\ +fl A-1 + … 

这就是离散卷积公式 （3. 3.6). 

记 

C ( s ) = ^ c T s 

T = 0 

利用母函数在 Isl ^ l 的一致收敛性及绝对收敛性， 

A ( s ) B ( s ) =又 a k s k • 又 b t s l = ^ a A 6 z s A+i 

k = 0 / = 0 k,l 

= S (土 a U $r = i C r $r 

r = 0 k = 0 r = 0 

因此 

C ( s ) = A ( s ) B ( s ) 

即两个独立随机变量之和的母函数是这两个随机变量的母函数的 
乘积.这是一个相当重要的性质，由于母函数具有这个性质，因此 
在研究独立随机变量和的问题时，母函数很适用. 

容易把上面结果推广到 n 个独立整值随机变量之和的场合， 
若随机变量匕： ，••• i 相互独立，且它们的母函数分别为 6(5) ， 
尸 2( S ) ，…, '( S ) ,则 V = il + ^2 +，，，+ ^的母函数为 

P ( s )= P l ( s ) P 2 ( s )- P n ( s ) (4.4.11) 

特别当么有相同概率分布的场合， P t (0= 6(0 ，这时 

P ( s )=[ P l ( s)V (4.4. 12) 

[例 7] 二项分布的母 函数： 在成功概率为的〃次伯努利 
试验中，若令 
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= ri, 在第；次试验中出现成功 
^"10, 在第 i 次试验中出现失败 

则 K 2 ，…相互独立，服从伯努利分布 = +匕 + ••• + f n 服 
从二项分布.么的母函数为 U + ps ) ,由 （4. 4. 12) ,77的母函数为 

P(s)= (q+ps) n 

这与例1直接计算的结果相同. 

利用母函数，可以给第二章讲过的泊松逼近定理一个新的证 
明. 

简言之，泊松定理可表为 ：若吼 — A , 则 P ( A ). 
事实上的母函数为 （ i - p n +； vr , 注意到 
( l -Pn + Pn S ) n =(1+ P„(S - 1)广 



这正是 P ( A ) 的母函数，因此由唯一性推知 P ( A ). 

[例 8] 帕斯卡分布的母函 数：由 （3. 1.19) 定义的帕斯卡分 
布，表示伯努利试验中第 r 次成功出现时的试验次数 （ 的概率分 
布，而 （ 有如下表达式 

^ = 7； 1 +-+77 r 

即 （3. 1. 20), 其中 & ,•••,& 相互独立，均服从几何分布•由 

(4.4. 8) 知几何分布的母函数为^~,因此据 （4. 4. 12) 可得帕斯 

1 -qs 

卡分布的母函数为 

P ( s )= (4.4.13) 

Vl， …， Vn 的上述两个性质的严格证明，相当繁难，留给有兴 
趣的读者. 

[例 9] 掷5颗骰子，求所得总和为15的概率. 

[解]若以 么记第 〖颗掷岀的数字，则总和77=^+匕+ *"+ 匕， 
么的母函数为 
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P i (s) = 5+5 2 +5 3 +5 4 +5 S +5 6 ) 

6 

显然么，^，…，是相互独立的，因此 T ? 的母函数为 

P( 5) = 5+5 2 + +5 6 ) 5 

6 

所求的概率 PW =15 丨是/ >(0 展开式中项的系数.由于 

p ( i )= ^ (1+ s + - + i 5)5= ^( i ^) 

=^-(1-5 6 ) 5 (1-5)- 5 
o 

=$( 1 - 5 / + 10^ 2 +… 

' 5 ) (~s) k 

= ^ T (1_5/+ …） 

• 主 (- mr 1 ”， 

故 

，，釙 «-鲁 f 

掷骰子问题在概率论发展的早期一直占有显著地位，这里用 
母函数法给予统一处理. 

四、随机个随机变置之和的母函数 

若匕，^，…， I ，…是一串相互独立具有相同概率分布的整值 
随机变量, = y ; •，其母函数为 

F(s) = ^fjS } 
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随机变量〃是取正整数值的，且/=1，其母函数为 


C (5) = 

n = I 

若与 "独立 ，考虑和 77= A + f 2 + *“+ f ，记 

P\rj = i \ =fl i 

我们来求 W 的母函数 

H(s) = $ h〆 

i = 0 

利用全概率公式及 i 匕 i 与〃的独立性 

00 

h t = P \ r] = i\ = = n \ P\ r] =il p = n\ 

n = 1 
oo 

=^ PU = n\P\^ { + + … + f„ = i I p = n\ 

n = 1 
oo 

= Y^P\v = n\P\^ + f 2 + ••- + f „ = it 

n = 1 

由于 f ^ +…+^ 为 n 个相互独立具有相同母函数 F(s) 的 
随机变量之和，故其母函数 

[ 尸 H + …+ ^„ = = [F(s)] n 

i = 0 

因此 


H ( s ) = ^ h〆 


Z m | Z 尸|匕 + … + = i |5 i 

fi = 1 i = 0 


= Xg n [ F ( s )] n = G [ F ( s )] (4.4.14) 

fi = I 

从 （4. 4. 14) 可以看到，随机个相互独立相同分布的随机变量之和 
的母函数是原来两个母函数的复合. 

由于 

H f ( s )= G f [ F ( s )] • F ，（ s ) 

因此当及存在时，在上式中令 s = l ，得到 

E v = Ev • (4. 4. 15) 
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这个公式很直观，也有不少用处. 

[复合泊松分布]在上述讨论中，若〃服从参数为 A 的泊松 
分布，则 

G (5)= e A(,_1) 

因此 V = +^2 + * , *+^的母函数为 

^(5)= e A(F(,)_1) (4.4.16) 

以 （4.4.16) 为母函数的概率分布称为 复合泊松分布 .这种分布也 
很有用. 

特别当 = 时， 

丑⑴ = e Ap(,_1 ) 

[例 10] 若每条蚕的产卵数服从泊松分布，参数为 A , 而每 
个卵变为成虫的概率为 P , 且各卵是否变为成虫彼此间没有关系， 
求每条蚕养活丨只小蚕的概率. 

[解]这是第二章习题.现在利用上面结果立刻知道小蚕数 
服从参数为 Ap 的泊松分布，因此所求概率等于 

(Ap)" -A P 

kl 

[例 11] 观察资料表明，天空中星体数服从泊松分布，其参 
数为 AF , 这里 F 是被观察区域的体积.若每个星球上有生命存在 
的概率为/>,则在体积为 F 的宇宙空间中有生命存在的星球数服 
从参数为入 pV 的泊松分布. 

[保险中的索赔模型]在非寿命保险中通常采用如下索赔 
模型： 

V = ii + i 2 + t,m+ ^ (4. 4. 17) 

这里么，1,2,…为独立同分布随机变量，表示第 f 次索赔数额， 
而总索赔次数则是随机变量 M ， 因此表现为随机个独立随机变 M 
之和的形式.更一般的索赔模型则还假定/ X 也是随机个随 机变勛 
之和： 
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fi=e l +6 2 +--*+e v 


(4. 4. 18) 



例如一次事故引起随机个索赔，而事故次数也是随机的.在这类模 
型中通常假定事故发生服从泊松分布. 


§5.特征函数 


一、定义 

数字特征只反映了概率分布的某些侧面，一般并不能通过它 
们来完全确定分布函数，本节将要引进的特征函数，既能完全决定 
分布函数而又具有良好的分析性质. 

为了定义特征函数，我们需要稍为拓广一下随机变量的概念, 
引进复随机变量. 

定义 4.5.1 如果 f 与 W 都是概率空间（打，.^；/ 5 )上的实值随 
机变量，则称为 复随机变置. 

从定义知道，对复随机变量的研究本质上是对二维随机向量 
的研究.这里举一个 例子： 如果二维向量（^ 1 ,1 ?1 )与（^，7 72 )是独立 
的，则我们称复随机变量 f 是独立的. 

定义一个复随机变量 ^ = 的数学期望为 

对复随机变量也可以平行于实随机变量建立起一系列结果. 
例如，若 U 2 ，…， A 是相互独立的，则 

E m n =E ii E ‘2"， E L 

又如，若 g (幻是一个一元博雷尔可测函数，而则成 
立复佚名统计学家公式 

Ee i ， v = Ee itg( °= e ilg(x) dF ^( x ) (4.5.1) 

J — oo 

这里使用欧拉公式 e ，0 = cos ^+isin 6. 

以后将随时引用这类_果而不再加以说明. 

下面引进随机变量 f 的特征函数. 
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定义 4.5.2 若随机变量 f 的分布函数为。 U), 则称 

f ^ t ) = Ee Ui = r e itx dF € ( x ) (4.5.2) 

J — oo 

为专 的特征函数 （characteristic function ). 

特征函数是一个实变量的复值函数，由于所以它刈 
一切实数£都有意义. 

显然特征函数只与分布函数有关，因此亦称某一分布函数的 
特征函数. 

对于离散型随机变量，若其分布列为 



则其特征函数为 

/(0 = Pj^ ltXj (4.5.3) 

；=1 

特别地，对于整值随机变量，若其母函数为 P ( s )， 则 /(0 = P ( ei '). 

对于连续型随机变量，若其分布密度函数为/ >(4 ,则其特征 
函数为 

/( 0 = f e > lv p ( x ) dx (4.5.4) 

J - oo 

这时，特征函数是密度函数 pU ) 的傅里叶 （ Fourier ) 变换. 

一般情况下的特征函数可以看作是这种傅里叶变换的推广. 
傅里叶分析是数学中一种非常有力的工具，它在许多数学分支中 
都起了重大作用，以后我们将会看到，它在概率论中也占有突出的 
地位. 

下面指出一些重要分布的特征函数. 

[例 1] 退化分布//幻的特征函数为 

/⑴ = e ict (4.5.5) 

[例 2] 二项分布 6( n ， p ) 的特征函数为 
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/ ⑴ =(〆 +q) n 

[例3 ] 泊松分布 P ( A ) 的特征函数为 

/(0 = e A(ei， -° 

[例 4 ] r 分布 r ( r , A ) 的特征函数为 


/⑴= 



八 r 

rv )" 



r ( r ) 


X dx 




(4. 5.6) 
(4.5.7) 


(4.5.8) 


特别地，参数为 A 的指数分布 Ex P ( A ), 即 r ( l ， A ) 的特征函 

数为 


/(0= ( l - y ) _， (4.5.9) 

同样地，参数 n 的/分布，即 r (皆 D 的特征函数为 


/(0 = ( l -2 iO" f (4.5.10) 


二、性质 


下面讨论特征函数的一些基本性质. 

性质 1特征函数 /( f ) 有如下 性质： 

/(0) = 1 (4.5.11) 

1/(0 I ^/(0) (4.5.12) 

(4.5.13) 

[证明] /(0)= f ldF(x)=l 

J — oo 

I f(t) I 彡「 I ， I dF(x) = 1 =/(0) 

J - 00 

/( - 0 = f “） 

J — 00 
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=f e ,tx dF(x) =/(0 

J — oo 

性质 2 特征函数在 （-00 ，oc ) 上一致连续. 
[证明]因为 

\ fit + h ) -/ ⑴ I =厂 ( e i _ - e u *) dF (^) 

J — CO 


彡厂 I e 加 - 1 I dF(x) ^ 2 f dF(x) + [ I e ihx -II dF(x) 

j -® j lx\ j -A 

= 2( dF ( x ) +2 f 
J I x \ J - 


hx 

~2 


dF ( x ) 


注意上式右边已与 £ 无关； 可选足够大的 4 使 f dF ( x ) 任总 

J \ x \ 

小，对选定的 4 再选充分小的 Ml 可使第二个积分也任意小，从而 
证明了结论. 

性质3对于任意的正整数 n 及任意实数~ A ,…人及复数 
入1，入2, ••♦，▲»»，成 

n n 

X Z/U 多0 (4-5. 14) 

k=i j =i 

[证明] 

X _ l j)^k 

k=l j =1 

=Z S Ee^\ k \j 

k =1 ;=1 

A = 1 j = I 

k = 1 j =1 

叫 卜 0 

k = l 

这个性质称为特征函数的非负定性，以后我们将会看到，这是特征 
函数最本质的性质之一. 
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性质 4 两个相互独立的随机变量之和的特征函数等于它们 
的特征函数之积. 

[证明]设匕与是两个相互独立的随机变量，而 = f + 
，由 f 与^的 独立性不难推得复随机变量 e % 与也是独立 
的，因此 

Ee ilv = Ee it (€ l + h ) = Ee ilU - Ee ilh 

性质4可用归纳法推广到〃个独立随机变量之和的场合. 
应当着重指岀，正是由于性质4,才使特征函数在概率论中占 
有重要地位.由于这个性质，独立随机变量和的特征函数可以方便 
地用各个特征函数相乘来求得，而独立和的分布密度要通过卷积 
这种复杂的运算才能得到，相比之下,用特征函数来处理独立和问 
题就有力得多.独立和问题在概率论的古典问题中占有“中心”地 
位，而这些问题的解决大大有赖于特征函数的引进与使用. 

性质5设随机变量 f 有 n 阶矩存在，则它的特征函数可微 
分 n 次，且当灸彡； I 时： 

广 )(0) = \ E^ k (4.5. 15) 

[证明] 

|^ r ( e itJC ) = \ i k x k e itx \^\ x\ k 

由于 f 的&阶 矩存在，故 f I x \ k dF ( x ) < oc , 因而可作下列积分 

J 一 00 

号下的微分 

f k \ t )= f 矣 (，) dFQ ) 

J -00 (jt 

=f x k e , lx dF ( x ) 

J — oo 

取 ^ = 0 即得 (4. 5. 15). 

性质 5 使我们可以方便地求得随机变量的各阶矩. 

推论若随机变量 f 有〃阶矩存在，则它的特征函数可作如 
下 展开： 
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/ ⑴ =1 + (i ⑽ + + ^ + ^Ef + o(t n ) 

2! n\ 


(4.5. 16) 

[证明]由性质5,/(0可以在 f = 0 近旁作泰勒展开，公式 
(4.5. 16) 就是在带有皮阿诺余项的展开式中，代人 （4. 5. 15) 式而 
得到的. 

性质6 设= 这里 a ，6 为常数，则 

f v (0 = e ibt f,(at) (4.5.17) 

[证明] 

f v (t)=Ee itv =Ee il(a ^ b) 

= e itb Ee^ = e ib %(at) 

[例 5] 正态分布 yV (/ x ，(7 2 ) 的特征函数 
先讨论#(0，1)的 场合： 

1 r® . £ 1 r* _ii 

f(t) = -—z I e'^e 2 d^; = - - I cos tx • e 2 

由于正态分布一阶矩存在，可对上式求导，得 


尸⑴古 ： ( -一 • 


X 2 


e = 


si 

— 00 


sin txde~ T 


ly/2TT 

tf (0 


sin tx • e 


~ X T 




V^TT 

oo ^2 

I tcos tx • e _T dA ； 

J - QD 


因此 


ln /(0= - y +c 


由于 /(0)= 1, 所以 c = 0. 这样一来， 

/⑴ = e _ 4 (4.5.18) 

一般 ； V (/ x ，( 7 2 ) 的场合，利用性质 6 即得 

f ( t ) = e ^- T ^ 2 (4.5.19) 
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三、逆转公式与唯一性定理 


现在来证明特征函数与分布函数是相互唯一确定的，由分布 
函数决定特征函数是显然的，剩下来的是需要证明可由特征函数 
唯一决定分布函数. 

下面定理的证明要用到如下数学分析的引理. 

引理 4.5.1 设义<：»； 2 , 

g( T,x 9 x l9 x 2 ) = 丄 |^^_ 土二上 2 _ 

7 T Jo L t t 


则 


lim g( T,x f x l y x 2 ) 


(4.5.20) 

0, x < x { ^ x > x 2 

~~ f x = x t ^ x = x 2 (4. 5.21) 


〔1 , X { < X < x 2 

[证明]从数学分析中知道狄利克雷积分 




2， 


a 


> 0 


0, a = 0 

-y,a < 0 


(4.5.22) 


而 

lim g( T 9 x ,x { 9 x 2 )= D{x-x x ) -D(x-x 2 ) 

T—^oo 

分别考察％在区间 （^ ，&) 的端点及内外时相应狄利克雷积分的 
值即得 （4.5.21). 

定理 4.5.1( 逆转公式）设分布函数 FU ) 的特征函数为 
/(0 ，又义 ，、是 F ( x ) 的连续点，则 

F(x 2 ) - F (^) = lim 6 ，tX， ~ 6 UX2 f (t)dt (4.5.23) 

7 1 — ZttJ -t it 
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[证明]不妨设记 


It 


- Lf r i 

2n J -t 

n 


it 




-h* 2 


itx 


it 


dF(x)dt 


为证被积函数的有界性，用到不等式 

le ia -ll^lal 

事实上，对 a >0 


I 


I 




^ I e" I dx 


对取共轭即知不等式也成立. 
因此 


it 


^ x 2 - 


交换上述二次积分顺序得到 

= 


it 




-*!> it(*-i ： 2) , -it(x-x 2 ) 


it 


-dn dF(x) 


厂 [ 广 ( sin t(x - x { ) 一 sin t(x - x 2 )^ 山 


dF(x) 


=\ g(T,x f x l f x 2 )dF(x) 

J — 00 

此处€(7\、〜3 2 )按（4.5.20)定义.由 （4. 5. 21) 可以知道 
七， 七）1 有界，因此由勒贝格控制收敛定理①并利用引理 
的结果 可得： 

lim/ r = f limg( T 9 x f x { 9 x 2 ) dF(x) 

T—^00 J _ 00 r—► oo 


①为了避免冗长的分析论证，在证明特征函数的逆转公式及逆极限定理时，我 
们共四次使用了实变函数论中关于极限号与积分号交换的勒贝格控制收敛定理. 
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= F(x 2 )-F(x x ) 

定理 4.5.2( 唯一性定理）分布函数由其特征函数唯一决 
定. 

[证明]应用逆转公式，在 FU ) 的每一连续点上，当 y 沿着 
FU ) 的连续点趋于 -00 时，有 

1 C T e~ ity - e~ itx 

F ( x )=^ - lim limf - ~~(4.5.24) 

2IT y—-® J it 

而分布函数由其连续点上的值唯一决定. 

由唯一性定理可知特征函数也完整地描述了随机变量. 
特别当/(0是绝对可积函数时,有下列更强的结果. 

定理 4.5.3 若「 丨/⑴丨山 < 00 ,则相应的分布函数 F (幻 

J - 00 

的导数存在并连续，而且 

F r ( x )= j - f e~ itx f(t)dt (4.5.25) 


[证明]由逆转公式，若 mAx 及文是 F ( x ) 的连续点，则 
F(x + Ax ) - F ( x ) 1 』 ，以 


Ax 

利用 le ia - ll < l a l , 可得 


lim 


2it 


* 

- 


itAx 


-/ ⑴ df 


itiix 


^1. 


依假设 f 1/(01山<00,因此 

J — 00 

F(x + Ax ) - F ( x ) =丄厂 
Ax 2 tt J - 


-i/(* +A*) 


利用控制收敛定理 


F r ( x )= lim 
a*— o 


F ( x + J \ x ) - F ( x ) 

lx 




lim 




- At ) At 
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= 忐广 e ' itxf(t)dt 

因此 />(%)== F ' U ) 存在而有界.再次利用控制收敛定理就可得 
F ' U ) 的连续性. 

因此在/(0是绝对可积的条件下，分布密度 PU ) 与特征函数 
/(0通过傅里叶变换来联系. 


四、分布函数的再生性 


许多重要的分布函数具有一个有趣的性质——再生性.这个 
性质用特征函数来研究最为方便.下面通过几个例子来说明它. 

[例 6] (二项分布）若匕服从5(肌，/0，^服从以^/>)，而 
且与^独立，则 W = 匕服从 B ( m + n y p ). 

事实上 4(0=( P ，+ gr , 4(0= 广，由性质4知 

/,⑴=( 〆 切广 n 

因此由唯一性定理知 77 服从 B ( m + n 9 p ). 

这个事实简记作 

B(n l 9 p) ^ B{n 2 ,p) - B{n x + n 2f p) (4. 5. 26) 
[例 7] (泊松分布）若 f 服从服从 />( A 2 ), 而且^ 
与€独立，则服从 ^( Aj + Aj ). 

事实上 

， ” ⑴ =e u，_-n 
这个事实简记作 

P(A,) *P(A 2 ) =P(A, +A 2 ) (4.5.27) 

[例 8]( 正态分布）若 么服从 W(Ati ^ 服从# ( A ，4)， 

而且匕与心独立，贝 ！ I T 7= f + 匕服从 A ^(/ x ，!+/ x, 2 ,cr 1 + 0 * 2 ). 

事实上 
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4,(0= e ^-^ 2 , 

/ (f)= 卜 + (< ^ + H〉 t2 

这个事实简记作 

N (^ { , a \) * ^ V (//<2， d ) = W ( Mi + M 2， d +4) (4.5.28) 

[例 9 ](r 分布）若 A 服从 nbA ), 心服从 r ( r 2 , A ), 而且 
fi 与 独立，则 ”= fi + f2 服从 r(rj + r 2 , A ). 

事实上，由 （4.5.8) 

•4 ⑴屮+厂， A ⑴ 屮 - f 厂 

/ in - ( r * + r 2) 

八⑴十了） 

这个事实简记作 

ro ^ A ) * r ( r 2 ， A ) = ro ! + t 2 , a ) ( 4 . 5 . 29 ) 

特别地， /分 布即为 r (|, 士)，也具有再 生性： 

Xm ^Xn (4.5.30) 

这个性质，通常称为 / 分布的可加性，已见于式 （3.3. 38)，在数理 
统计中是最常使用的命题之一. 

还有不少重要分布也有再生性，留给读者作为练习. 

还有人研究了这类命题的逆命题——分布函数的分解问题, 
即若两个独立随机变量之和服从某一分布，问是否能断定这两个 
随机变量也分别服从这个分布.已经证明对于正态分布及泊松分 
布逆命题的确成立. 

五、多元特征函数 

若随机向量 （ f ，€”••• ，匕）的分布函数为 FOi ，七，•••，&),与 
随机变量相仿，我们可以定义它的特征函数 

f(t l 9 t 29 -,t n )= f …厂 e i( w + A 〉 dF(h ，•••，〜） 

J — 00 J — 00 


(4.5.31) 
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可以类似于一元的场合，建立起 n 元特征函数的理论，由于方 
法完全相同，我们只叙述一些有关结论，证明一概从略. 

性质1 /(~，^“人）在！^中一致连续，而且 

1/(^1 , WJ 1 </(0,0,… ,0)=1 


•/ (-’1，-尤2，•••，-〜） : f 、 t \ ，’2 ，…， ’n ) 

性质2如果 /U …人）是 （ K 2 ，"* D 的特征函数，则 

V = +«2^2 + *** +a ^ n 的特征函数为 

f v ( t )=f(^ l t,a 2 t, ••- 9 a n t) 

性质 3 如果矩故 1 冷… ☆存在 ，则 

EdX 




「 d*〜 + v ( w 2 , …人 ）1 


dt\' dt k 2 2 —dt k n n 


(4.5.32) 


=， 2 =… 


,= 0 


性质 4 若 （ f ，^, …，匕）的特征函数为 / U 则 
Wk / O 维随机向量 （ u 2 ，…,匕）的特征函数为 


’1，’2，…，’ * ) =/ Ol ，’2，… * ，0，…， 0) 

这是前 /C 个分 量的& 元边际分布函数对应的特征函数.对应于任 


意灸个分量匕,匕，…，^的边际分布函数的特征函数，可以类似得 
到. 


逆转公式如果 / UJ 2 , …， o 是随机向量 （&▲,•••, I)的 
特征函数，而…是它的分布函数，则 

p \ a k^^k< b k^ k=l ， 2,…， ni 


1 f Tl f T2 f r « A e _i ^ - e~ ilkbk 
"^ (2 ir) n ^ 

J= l ,••• ,n 

•/(«i ，… 人） 

其中乂和\都是任意实数，但满足唯一的要求落 
在平行体 


a k < X k 〈 bk ， ^ = ^ »2 , *•* ,71 


的面上的概率等于零. 
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唯一性定理 分布函数 F ( x , ，\)由其特征函数唯一 
决定 • 

有了唯一性定理，可以进一步证明特征函数的如下两个性质， 
它们表征了独立性. 

性质5 若(^ 2 ,…, U 的特征函数为 /( Lb …人），而6 
的特征函数为 /&) ， y = 1 ,2,…，〜 则随机变量 K 2 ，…， 相互独 
立的充要条件为 

fih “2, …人) =*4(q X4(G )•••/“（ U (4. 5. 33) 

性质6 若以，…，~)，/ 2 (〜，…，、）及 / K ， …，~， 
u i ，…， *0 分别记随机向量（匕，…，荅 J ,(” i ，•• •，” ro ) 及 ( f ，… ，匕， 
化，…，^)的特征函数，则，…， U 与 U , …， i ) 独立的充要 
条件为：对一切实数^，…， L 及 A ，•••，、成立 

f(j" … 人 ， u "…， u m ) 

=/ i («! ，— 人 )/ 2 ( w i ，…， w m ) (4. 5. 34) 

在下一节，我们要用到如下定理，相应于此定理的一维结果， 
将在下章叙述并证明. 

连续性定理 若特征函数列 l / A U ，《 2 , …次 ）1 收敛于一个连 
续函数 /( q , f 2 ，…， U ， 则函数 /U …人）是某分布函数所对应 
的特征函数. 


*§6. 多元正态分布 

一、密度函数与特征函数 

在本节中，我们将讨论多元正态分布的定义与性质，假定读者 
具有矩阵论的基本知识.因为对二元的场合我们已直接推导过其 
中的大部分结果，所以基础知识不足的读者不妨跳过本节. 

下面，我们将以黑体的小写字母记列向量 ，如： 
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>0 


乂、 


弘2 

• 

• ! 
• 

，卜 

• 

• 

• 


K ^ n ) 




以黑体的大写字母记矩阵，例如 



以 T 记矩阵（当然也包括向量）的转置，因此 f (其中 J 

/ = 1 

为列向 量）； 以 之 _1 记 i ： 的 逆阵； 以 det 烹记 2 的行列式之值. 

在 （3.2.13) 中，我们已定义了 / I 元正态分布的密度函数，采 
用列向量形式，其表达式为 


P(x) 


1 


{2^) n/ \A^S) T 


exp|-y(^-/i) T Z ， ~ ， (x-^) J 


(4. 6. 1) 

其中 2 是 n 阶正定对称矩阵， / i 是实值列向量，并简记这个正态分 
布为 IHfjd 

事实上，我们还需要证明由 （4.6.1) 定义的函数是 R n 中的密 
度函数. 


显然 


p ( x )>0 , X e R " 

因此只须验证下式成立 


(4. 6.2) 


[ p ( x)dx = l (4.6.3) 

J R n 

为了证明 （4. 6. 3)，我们要用到矩阵论中这样一个结 果：若 之 
是正定对称阵，则存在非奇异阵使 

X=ll t 
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作线性变换 
则逆变换为 


y - L ~\ x -§ ji ) 


x = Ly+fi 

变换 （4. 6. 6) 的雅可比行列式由下式给出 


det L = ( det X ) 




(4. 6.5) 

(4.6.6) 

(4.6.7) 


由于 


(4.6.8) 

因此 

f p(x)dx 
J R n 


exp 


2 


T y\ • (det S) T dy 


(2ir)" /z (det 茗）了 

/- a > exp {"T? r '} dri * ， * drn 

= I 

e" u2/2 dul = 1 


(2ir) n/ 


从而证明了 （4. 6.3), 所以 （4. 6. 1) 确实定义了 IT 上的一个密度 
函数. 

定理 4.6.1 ^元正态分布 （4. 6. 1 ) 的特征函数为 


/⑺二 expji 


(4.6.9) 


[证明]按定义 

f(t) = [ e ltTx p(x)dx 
J R n 


1 


(2ir) n/2 (detl) 丁 


• Jr/ 〜 XP { - 士 (X -/^)} 


dx 


作变换 （4.6.5), 注意到 
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记 hi //， 则 


it 1 x = \ffi Vif Ly = \t T fi+i{ L T t) l y 


( 4 . 6 . 10 ) 


= i〆’ + E ( i5 *n - yn) 

= i 〆 ’ _ tX (r * " i5 ^ 2 ~ yE 5 * 

= 一 - II ，，) 中 

因此 

/(0 = —^- r 

(2 ir) T (det J：) T 

30 QQ 1 打 I 

• f … f exp| - _ ^ ( n - i 5 J 2 J (detD^dfd：^ 

左 =1 

一 〆 卜+心 

— C 

在 （4.6. 1) 中，假定 I 是正定对称阵，否则该表达式没有意 
义，因此我们只是对正定对称阵2的场合定义了多元正态分布， 
但是利用特征函数表达式 （4. 6.9) 有可能把定义拓广到一般非负 
定对称阵2的场合. 

事实上，设 I 是非负定对称阵，令足=万++/,这里/是 n 阶 

单位阵，显然足是正定对称阵，因此 

/ A (0= e ^-^ 

是 n 元正态分布 N( M ,之 & )的特征函数.现在 

lim / A (0= e ^-^=/(0 

A—► oo 

而/(0在1^上连续，因此由上节的连续性定理知/(0是 R n 上某 
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分布函数的特征函数. 

这样可以引进如下一般定义. 

定义 4.6.1 若 /i 是/ I 维实向量 ，之是 n 阶非负定对称阵，则 
称以 （4. 6. 9) 式中的/(0为其特征函数的分布函数为 〃元正态分 
布 ，并简记为 

按照这个定义，当2为正定对称阵时，其密度函数由 （4.6. 1 ) 
给出； 但是当 detS = 0 时，密度函数无法写出.可以证明，若 万 的 
秩为 r ( r < n ) ，则这时概率分布集中在一个 r 维子空间上，这种正态 
分布称为退化 正态分 布或奇 异正态分布. 

下面讨论中，我们总是假定随机向量…，服从 
n 元正态分布 7 V (/ i ， I ：). 

定理 4.6.2 f 的任一子向量 ^ m ) T (肌彡 /0 也服 
从正态分布，分布为，其中 = ，/，…，为保 

留 I 的第\ 义 ，…， k m 行及列所得的 m 阶矩阵. 

特别地，（服从一元正态分布 

[证明]只须在特征函数 （4. 6. 9) 中对一切不等于卜， 
&，.••，<的/，令~ = 0即得(心，心，…, ^) T 的特征函数 

/(0=e^ ra 

这里…，、 ） T ， 这正是 #(片， 芝）的特征函数 • 

定理 4. 6. 2表明，多元正态分布的边际分布还是正态分布. 

定理 4.6.3 m 及 之 分别是随机向量 f 的数学期望及协方差 
矩阵，即 

ixj = E^j , 1 ( 4 . 6 . 11 ) 

ajk = E Uj ， j) Uk~^k) y 1 ( 4 . 6 . 12 ) 

[证明]由定理 4. 6. 2 立即得到 （4. 6. 11) ，而且知道^ ; .= 
1 ,2,…，〃存在，由柯西-施瓦兹不等式又知各协方差存在, 
因此由 （4.5.32) 



d 2 f(t" …， tj 

dtjdt k 


= <7 jk +flj^ k 
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故 


E (€r^j ) (f 一冲 k=o"jk 
因此〃元正态分布由它的前面二阶矩完全确定. 

二、独立性 


正如在二元场合一样，对/ I 元正态分布而言，独立性与不相关 
性有密切联系. 

定理 4,6.4 ^ , f 2 ，…相互独立的充要条件是它们两两不 
相关. 

[证明]必要性显然成立，下证充 分性. 

若 u 2 , …，么两两不相关，即对一切 
E \- (^k~ E D ] 


pjk 


因此〜 = E (€-%)(&-%)= 0, 所以 
/“，…人） 


：0 






= ri4 ⑷ 

k=i 

由上节多元特征函数的性质5可知 f , f 2 ，…，相互独立. 

定理 4.6.5 若，这里 f 与6是 f 的子向量，记 

J = d ) (4 . 6 . 13 ) 
\^21 ^22 / 

其中足 1 及為分别是 f 及匕的协方差矩阵，足 2 则是由 f 与匕的 
相应分量的协方差构成的相互协方差矩阵，则 f 与匕独立的充要 
条件是； 2 =0. 

[证明]若 f 与 f 2 独立，则 f 的任一分量与的任一分量独 
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立，因此其协方差为 0, 从而由它们构成的矩阵 之 12 = 0, 这就证明 
了必要性. 

下面来证明充分性.由 '二〜，因此之 21 =<2 = o , 若 ^ =H 
这里[与 f 有相同维数名与有相同维数，则 

f£t=t]x n t x ^2t]S n t 2 HlX 22 t 2 =t]x u t l +tlx 22 t 2 


因此若记#=€1，其中 A ，/ t 2 分别为 f 及 匕的数 学期望，则 

/〆 0 = exp 卜 1 >- 士 〆 叫 

= exp{ Vt^,+i/i^2 •• 士 2 } 

= exp|i/i^ 1 -y^„r i | - expl^ilt 2 -Y^S 22 t 2 \ 


=4 U )4(， 2 ) 

由上节多元特征函数的性质 6 可知 f 与匕独立. 

类似地可以证明，若 f 的子向量€，&,•••,&两两独立，则它 
们也相互独立. 


三、线性变换 


服从正态分布的随机向量在线性变换下具有许多特殊的性 
质，这些性质有很大的理论和实用价值，下面只讨论这类性质中最 
基本的一些. 

一般 ，若篆 =(&,•••, l ) T 是维随机向量，其数学期望为 / i , 
协方差矩阵为之. 

考虑 f 的分量的线性组合 （ = f / ; < = Z T f ,显然 

>=1 

^ ^ lj fij = l T fi ( 4 . 6 . 14 ) 

> =i 
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Di = XT l M jk = l T Sl (4.6.15) 

y = i 4 = 1 

同样地，若 c = ( c yA ) 是 mxn 矩阵，则 m 维随机向量 = 有 

Erj = Cfi (4.6.16) 

Dyi = CSC t (4.6. 17) 

这里 Z ) i 7 记 1? 的协方差矩阵. 

定理 4.6.6 f = (6,… ，6) T 服从 n 元正态分布 yv ( M , 之）的 

充要条件是它的任何一个线性组合 （ =服从一元正态分布 

>=1 

N ( ih • 

' > =1 j,k = 1 ' 

[证明] 必要性 : 若（服从#(#，之），则由（4.6.9) 

Ee i,T ^ = exp | i / i T /-- 
取〜 歧 这里 u 是实数，则 

Ee iui = Ee iulTi = exp jii^ T /-y a 2 / T Jf/j (4.6.18) 

对 u 是任意实数上式都成立，这就说明随机变量 （ 服从 N ( ffi ， 

fxi ). 

充分 性:若 （ = / T 《 服从 iV ( / V ， fXl ) ，仍有 （4.6.18)， 在该式 
中取 u = l , 得 

Ee ,lT€ = expj ifi T /-~-/ T ^/| 

由于 / 的任意性，这说明 f 服从 _，£)• 

利用定理 4.6.6 可以通过一维正态变量来研究多维正态变 
量.在有些场合这提供了很大的方便. 

定理 4.6.7 若杳=(匕，…， f „) T 服从 n 元正态分布 N( Mf 
万），而（：为任意 mxn 阵，则 = 服从 m 元正态分布 N ( C Mf 
CXC T ). 

[证明]因为对于任意 m 维实值列向量 G 
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/,( 0 = Ee uTv =Ee uTc( =Ee i(crt)rf 

=exp|i/it T (C T /) --|-(C T /) ( C T 0 } 

= exp{i(C/i) T ， - 士 ， ( CSC T )t^ (4.6.19) 

按定义， 17 服从 w 元正态分布 #( C/i , C2C T ) • 

定理 4. 6 . 7 表明正态变量在线性变换下还是正态变量，这个 
性质简称为正 态变置的线性变换不变性. 

推论 1若 f 服从 a 元正态分布 / V ( mJ )， 则存在一个正交变 
换 t /， 使得 = ^ 是一个具有独立正态分布分量的随机向量，它 
的数学期望为 吵， 而它的方差分量是之的特征值. 

[证明]从矩阵论知道，对实对称矩阵之，存在正交阵 ", 使 
，其中 


(d, 0 0 ) 

0 d 2 0 

D = 

• • • 

• • 參 

• • • 

0 0 … d n 


(4.6. 20) 


这里 4 ，<，…，< 是 J ： 的特征值.若之的秩为 r ， 则有 r 个特征值 
不为零.此处的 f 是以特征向量为列构成的正交阵. 


把这里的 f 作为定理 4. 6.7 中的变换矩阵，则利用该定理的 


结果即得推论 1 . 

从推论】可以看出，若之的秩则正态分布退化到一个 /* 
维子空间上. 

推论 1 说明，对于多维正态变量，可以进行正交变换，使其既保 
持正态性不变又让各分量独立,这种方法在数理统计中十分有用. 

第三章§3中的例10提供了利用坐标旋转（正交变换的一 
种）把二维正态变量化为独立分量的生动例子. 

推论 2 在正交变换下，多维正态变量保持其独立、同方差性 
不变. 
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[证明]设…, f „) T ， 诸 f 相互独立具有相同的方差 
CT 2 , 则它们的协方差矩阵 Z ^ = t 7 2 /， 其中 J 为/1阶单位阵.若1/是 
一个正交阵，1； = ^,则由定理 4. 6.7 知 w 服从正态分布，其协方 
差矩阵为 

Ucr 2 IU T = a 2 UIU T = a 2 I 

因而(川，…，^) 7 仍是相互独立且具有相同方差. 

推论 3若 f 〜 7 V (/ iJ )， 其中之为 n 阶正定阵，则 

-xl (4.6.21) 

[证明]利用分解式 （4.6.4) 中的 

= [ L - I (^)] T [ L - I (^- / i)]=fV 

其中（=1/ 1 ((- / 0,由定理4.6.7知它是均值为0的打维正态变 
量，其协方差矩阵为 

L- l X(L~ l ) T =L- l LL T (L- i y=I 

从而 （=( 匕，…，么） T 的各个分量是相互独立的标准正态变量，因 
此 

正态变量在线性变换下保持其正态性不变，这个性质在理论 
和应用中都极其重要.要点之一是可以把许多关于分布的问题简 
化为前二阶矩的计算. 


[例1 ] 若 U 2 是相互独立的随机变量，均服从标准正态分 
布，而 ' 


则由于 


因此 


Vl =0 心， 7?2=^+^ 2 


Erj { =0, Drjy - a 2 D^ { +b 2 D^ 2 =a 2 +b 2 
Etj 2 =0 , Dtj 2 = c 2 Df , + d 2 D ^ 2 = c 2 +^ 2 


cov ( t 7, ， V 2) =ac+bd ， P v 


ac+bd 


\V2 


v / o +^ v ?+5 5 
Vl -N(0,a 2 +b 2 ) , tj 2 -N(0 9 c 2 +d 2 ) 
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(Vi 0,0, a 2 +6 2 , c 2 +( f 2 ,- 


ac+bd 


当 ac+W = 0 时， p vir ) 2 = 0 , 7； 丨与 仏独立 

当 P ” i”2 = ±1 , BP ( ac + bd ) 2 = ( a 2 +6 2 ) ( c + d 2 ), 


也即 A = ad-bc = 0 时，（化，7/ 2 )退化为一维分布，而当 a = b-c = d = 
0时，（化 ， Th ) 退化为一个点 • 


四、条件分布 

若 f = 服从 n 元正态分布 iV ( M ， 之），这里 f ，心是它的子 

向量，母,=仏，峰 2 =/ i 2 , 协方差矩阵之仍由（ 4 .6.13) 表出. 

下面求在给定€ =心的条件下心的分布密度函数.假定 
detl / O , 即只讨论非奇异的场合，这时 det X n ^ 0 . 

首先，我们来找一个线性变换 

^1=^1 (4.6.22) 

V2 = T Sl^2 

这个线性变换使化=€，此外我们还要求它使得化与 ih 独立•由 
定理 4.6. 7我们知道 iy = j f 7 l j 是联合正态的，因此根据定理 4. 6. 5 
为使化与 ih 独立，只须它们的相互协方差矩阵为零阵.但是 

E(r] l -Evj 1 )(7i 2 -ETj 2 ) T 

= EdED(Tg 冰 - TEH) t 

= W 12 

因此应取 

T = S 2 l X；l 
故 

V 2 = 1 + ^2 

所求的线性变换为 


(4.6.23) 

(4.6.24) 
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Vl \j 1 0 

V2 ) \-^ 2i^n / 

为求化及1? 2 的分布密度函数，先计算 

E Vi = E ii =Mi » D Vi = D Si =^n 
E ”2 = -^21^11^1 +^2 =M 2 S 2 l S \\ fl x 
DTj 2 = E(rj 2 -E7j 2 ) (irj 2 -Erj 2 ) T 

• [(仏 卞 i)] T 
= 之 22 -UU 12 -H 1 足 2 +H/K 足 2 

= ^22~^2 l ^ U ^ l 2 

正如上述，…与化是独立的，又变换 （4. 6. 25) 的雅可比行列式等 
于1，所以有 

p〆 心，龙 2 )= p”(a ，少 2 ) = 〜 (h )p tt2 (y 2 ) 

这里义=七 ， j 2 = - H \+ x 2 ，显然，因此在给记 

的条件下，匕的密度函数 

P ^ x l 9 x 2 ) p vx { y x ) p vi ( y 2 ) 
p (^ lfi =^ i )= n 7 TV = ^ 

=P” 2 (h ) = P V2 ( X 2 - 之 2,0 丨） 

因为 i ? 2 服从 iv (/ i 2 - u 「> i ，足 2 - m 12 ) ，所以 ^对于 a = 弋 
的条件分布是正态分布 N ( fi 2 + x 2l x ;! ( jt i - fi x ), X 22 - 
尽，我们把这些结果总结为下列定理. 



(4.6.25) 


定理 4. 6. 8若《= 1 服从 n 元正态分布 W ( M , 之），^, 


fi lf E ^ 2 = fi 29 X 表示成 （4. 6. 13)，则在给定6=心下,1的条件分 
布还是正态分布，其条件数学期望 

M2 1 = E ( i 2 ^1 = x i )=^ 2 + ^ 2 i ^ n ( x i -^ i ) (4.6.26) 

其条件方差 

S 22 . l = X 22 - X 2 l SnX l2 (4.6.27) 
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这里 ) 称为 匕关于 f 的回归，注意到它是 A 的线性函 
数，又条件方差^^^与七 无关. 

此外， f 与残差独立，而 f 的密度函数有如下典 
型分解: PfOi ，太，其中〜(>1)为 N ( fi ” 
之 11 )相应的密度函数，而/>^ 1 (々|七）是#(/^. 1 ,之 22 . 1 )相应的密 
度函数. 

[例 2] 二元场合，若 ( f ! , f 2 ) T 9 fjL 29 a 2 l9 (T 2 2 ,p) , jil!l 




x= 

/ 2 \ 
i^2 



2 




J)(T X (T 2 c 2 y 


在给定匕=乂下, f 2 的条件分布还是正态分布，而且其条件期望由 
(4.6.26) 推知为 




条件方差由 （4.6.27) 推知为 

」 (p(7 { a 2 ) 2 
cr 9 -;- 


= 4(1 - p 2 ) 


这里得到的结果与本章§2最后一段及上章关于二元正态密 
度的典型分解完全一致，也可以说，定理 4. 6. 8是它们的一般推 



I 第四章小结. 

本章主要讨论了随机变量（或分布函数）的数字特征与特征 
函数，它们都是概率分布的某种表征.这些讨论不但深化了对随机 
变量的认识，同时也为以后的研究作了必要的准备. 

数字特征是描述随机变量特征的有效工具，它虽然不像分布 
函数那样完整地描述了随机变量，但是却具有很多优 点：它 较集中 
地反映了随机变量变化的一些平均特征（事实上数字特征多是某 
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种平均值）；其次，大部分最重要的分布函数都由一、两个数字特 
征完全确定，而数字特征较易 求得； 最后，最常用也是最重要的几 
个数字特征——数学期望、方差、相关系数——都有明确的概率意 
义，同时又具有良好的性质.所有这些都决定了数字特征在概率论 
与数理统计中的重要地位. 

特征函数与分布函数——对应，它虽然不像分布函数那样有 
直观的概率意义，但却有好得多的分析性质，因此它是解决某些分 
布问题的有力工具，特别在处理独立随机变量和的分布问题上占 
有极重要的地位.关于特征函数与分布函数关系的另一些方面，将 
在下章中进一步讨论. 

数字特征与特征函数都可以看作是分布函数的某种变换，而 
母函数则是概率论中引进的第一个变换，它在概率论发展史上有 
很大作用•到了现在，母函数以它的简明性以及在某些场合的有力 
应用而保持了它一定的地位.母函数与特征函数的性质与用途相 
似，因、此本书采用互见的叙述方式以节省篇幅. 

我们用特征函数作为工具研究了多元正态分布，建立了它的 
许多重要性质，这些良好性质从一个方面决定了正态分布在概率 
论、随机过程论与数理统计中的主角地位，正态分布重要性的另一 
方面——常见性——将在下章中得到深入的 讨论. 正态分布的大 
量特性只有在多元场合才能显现，因此可以说 ：只有 懂得多元正态 
分布才算懂得正态分布. 

最近几十年来，信息，信息的传输、变换与处理的概念正在渗 
入各种各样的学科，大大加深了人类对客观世界的认识•信息的概 
念与随机试验、概率分布等概率论概念密切相关，作为不肯定性度 
量的熵可以看作是概率空间的某种数字特征，因此我们对这些重 
要概念作了初步的介绍. 

本章的作用是承上启下.本章引进的两个基本概念——数字 
特征与特征函数——将在极限定理的研究中起重要作用. 
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1. (1) 证明关于示性函数成立如下 公式： 

= 1ab = 1a * lei lAUB = l ~ 1 rs 

(2) 利用示性函数导出概率加法公式 （1.5.6). 

(3) 证明 = + 一 1/4 B —1 bC _ 1/4 C + 1/4 BC 

( 4 ) 证明：1 MC sl /4+ lfl + lc - l /4 UB*~lBuduC + l /4 UflUC 

(5) 有五个队参加的比赛中，每个队与别的队都比赛一场，若每场比赛 
参赛双方各有50%贏的机会，试求整个比赛既没有不败的队也没有不胜的 
队的概率. 

(6) 证明4与 B 独立的充要条件为1,与1,独立. 

2. 随机变量 M 取非负整数值《多0的概率为/>„=4&，已知知 = d , 试决 
定4与凡 

3. 设随机变量 f 只取非负整数值，其概率为 P \^ = k \ “ T ， a >0 是 

常数，试求從及 Z)f 

4. 若事件4在第 i 次试验中出现的概率为凡，设 m 是事件4在起初 n 次 
独立试验中的出现次数，试求仏及办 . 

5. 一袋中含有 a 只白球，6只黑球，从中摸出 c 只 （ c 矣 a +6) ，求摸出白球 
数 M 的数学期望. 

6. 试求：（1)为收集 W 张赠券中的 r 张所需购买的食品袋数 f 的数学期 
望； （2) 为集齐水浒108将，平均要购多少袋？（参照习题一第38题）. 

7. 试证: 若取非负整数值的随机变量 f 的数学期望存在，则 

00 

灸=1 

8. 若随机变量 f 的分布函数为 试证： 

= ( [ 1 - F(x)]dx - f F(x)dx 
Jo J -» 

特别地，若 f 取非负值，则 

ES = f [1 -F(x)]dx 
J 0 
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9. 若随机变量 f 服从拉普拉斯分布，其密度函数为 

p ( x )= _ l_ e -l *-^ l/A ? _00 < x < co ， A >0 
^ A 

试求母及 Z)f 

10. 若分子的速度的分布密度函数由麦克斯韦分布律 给出： 



其中 0() 是常数，试求分子的平均速度和平均动能（假定分子的质量等十 
m ). 

li . 某城市共有 yv 辆汽车，车牌号从1到 '若 随机地（可重复）记下" 
辆车的车牌号，其最大号码为^,求母. 

12•若 试证: 并说明等式在何种情况下 成立. 

•13. 若 f 名相互独立，均服从 AT (/ i , f 2 ), 试证: 


E max(f, ,f 2 ) = M + 7 = 

V^r 

14 . 设 /(x)(o^*：<oo ) 是单调非降函数，且 /( 幻 >o. 对随机变量 

Ef ( lfl)<oo ，则对任意 x > O y P \ \ i \^ x \ If I )• 

15. 若 心，… ，匕为正的独立随机变量，服从相同分布，密度函数为 
p ( x ) ，试证 


W ㈣ +…+心 ) = 上 
\ &+“+••• n 

16. 袋中装有 yv 只球，但其中白球数为随机变量，只知其数学期望为 


试证从该袋中摸一球得到白球的概率为 

17. 甲袋中装有 a 只白球 6 只黑球，乙袋中装有《只白球月只黑球，现 
从甲袋中摸出 c ( c ^ a + 6) 只球放入乙袋中，求从乙袋中再摸一球而为白球的 
概率. 

*18. 袋中有只白球 6 只黑球，每次摸出一球后总是放人一只白球，这 
样进 行了〃 次之后，再从袋中摸一只球，求它是白球的概率. 

*19. 甲袋中有 a 只白球 6 只黑球，乙袋中有 c 只白球 d 只黑球，从两袋屮 
各摸出一球,并交换放入另一袋中，这样做了 n 次之后，再从甲袋中摸出 • 
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球，求这球是白球的概率. 

*20. 现有 n 个袋子，各装有 a 只白球6只黑球，先从第一个袋子中摸出 
一球，记下颜色后就把它放人第二个袋子中，再从第二个袋子中摸出一球，记 
下颜色后就把它放入第三个袋子中，照这样办法依次摸下去，最后从第 n 个 
袋子中摸出一球并记下颜色，若在这 n 次摸球中所摸得的白球的总数为 
试求^ 

21. 在物理实验中，为测量某物体的重量，通常要重复测量多次，最后再 
把测量记录的平均值作为该物体的重量，试说明这样做的道理. 

*22. 若匕， 匕 ，…,匕是独立随机变量，试找“权、，％，•••， 

〜 （它们满足= 1) ，使的方差最小. 

/ = 1 *= * 

23. 甲与乙依下列规则玩随机游 戏：甲 从装有 i 号球 i 个 （ i = l ,2,3,4,5) 
的袋中随机摸出一球放入密盒中，让乙猜号.乙对甲的支付是他猜的号码与 
真正的号码之差的 （1) 平方； （2) 绝对值.试对这两种场合，讨论乙应采取的 
最佳策略. 

24. 某海港对停泊船只供给净水，初始价是每吨 a 元，以后再供则要加 

50%的附 加费; 若用不完造成浪费则每吨加收资源费设某轮船的净水用 

量是密度函数为 />( 幻的随机变量，为节约其用水总开支试求其最佳首次供 
水量: K . 

"25. ( Black - Scholes 期权定价公式）若股票价格 S r 服从对数正态分 

布，即 In S r ~ yv(ln 5 |+ (卜誓 )（ T - t ) T - t ) ) ， t < T . 试证明该股票的敲定 

价为 K 的买人期权的价格 C< = e « E [ max ( S r -/ C ,0)] 满足如下 Black - Schol ¬ 
es 公式 :C< = s t 4>{ d x ) - Ke - r(T - l) 0( d 2 ). 

其中 d x = - 1=( In 

<j a / T-t l 

26. 帕雷托 （ Pareto ) 分布 的密度函数为 

, 、 卜 r 4r ， X ^ A 

p ( x )=, x 

.0, x<A 

这里 r >0,^>0. 试指出这分布具有 p 阶矩，当且仅当 p < r . 


钟今) 


( T - t ) V , d 2 - d x -a T - t . 
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27. 若 f 的密度函数为 


p { x ) ^\2\ x \{\ n \ x \) 2J， 

lo , 其他 

试证对于任何 a >0 ,Elfr = oo • 

28•若 f 服从 ； V ( M , cr 2 ) ，试求 E \ i -^\ k . 其中 A ; 为正整数. 

*29. 记 I *，若\< 00 ，试证 >^)^7/ o ^ , A = 1 ,2, ••- t n - l . 

30. 设随机变量 &,&,••• 是独立的，有相同的分布并且有有 

限的方差，试求 S = f 1+ 〜+ 匕与 r = d 2+ "* + f _ 两和之间的相关系数 • 

31. 若 （ f , W 的密度函数为 

— , x 2 + y 2 ^ 1 
p ( x , y )=) ^ 

.0, X 2 + y 2 > 1 

试验证 < 与7?不相关，但它们不独立. 

32. 某人写好〃封信，又写好 n 只信封，在黑暗中把每封信随意放入某 
一信封中，试求放对的信封数 M 的数学期望及方差. 

33. 设随机变量 f 〜 W (0,1), 记4=丨 ， B =| 1(1>2|，试求 I 及1„ 
的概率分布列联表，数学期望，方差，它们的相关系数以及 

* 34. 若 g ， rj 服从二元正态分布，從 = a ， Z)f = 1 ，£ i 7 = 6, Z ) t ; = 1，证明: f 与 
的相关系数 r = cos 其中 g = ((- a )( rf - b ) <01 . 

*35. 设 （ fw ) 服从二元正态分布，母 

£max(f ,77) = 

36. 甲袋中装有5只白球,7只黑球，3只红球，乙袋中装有4只白球，4 
只黑球，7只红球，试问从哪一个袋中取岀一只球有较大不肯定性？ 

37. 试求几何分布的熵. 

38. 试求二项分布的熵. 

39. 若以《及/3分别记二进位信道的输人及输出，已知 /PU = li =/>, 
P | a = 0| = l-p y P \ p = l \ a=l \ = q f P\p = 0 \a = 1 | = l - q t P \ p = l I a = 0 | = r , 
Pj ^ = 0 la = 0| = l - r , 试求输出中含有输人的信息量. 

**40. 在12只金属球中，混有一只假球,并且不知道它是比真球轻还是重， 
用没有砝码的天平来称这些球 .（1) 试问至少需要称多少次才能査出这个假 
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球并确定它是比真球轻或重 .（2) 给出一种称球方案. 

41. 试用母函数法求帕斯卡分布的数学期望及方差. 

42. 设 f 是一个母函数为 P ( s ) 的随机变量，试求下列各概率所对应的母 
函数： 

(1) 尸咖 | ; (2)P\( = 2n\. 

**43. 在伯努利试验中，若试验次数〃是随机变量，试证成功的次数与失 
败的次数这两个随机变量独立的充要条件是〃服从泊松分布. 

M 4 .设 |心 1是一串独立的整值随机变量序列，具有相同概率分布，考虑 
和 + 其中"是随机变量，它与丨相互独立，试用 （1) 母函数 
法； （2) 直接计算证明 

Et) = Ev • E ^ k , Drj = Ep • D^ k +Dp • (E^ k ) 2 

45. 某公共汽车站在 [0, t ] 中来到的乘客批数 / x 服从参数为 M 的泊松分 

布，而每批来到的乘客数是随机变量，来 /I 个的概率为= 1,2,…试求 

[0, t ] 中来到乘客数 ^ 的母函数及数学期望. 

46. 试用母函数法证明二项分布、泊松分布与帕斯卡分布的再生性. 

• 47.若分布函数 FU )= 成立； 则称它是对 称的； 试证分布函 

数对称的充要条件是它的特征函数是实的偶函数. 

48. 试求 [0,1] 均匀分布的特征函数. 

• 49. 一般柯西分布的密度函数为 p ( x ) = - —— 2 - ■ -■ 、 - 2 ., A >0,试证它的 

TT A +(x-fl) 

特征函数为 e ^- Altl ，利用这个结果证明柯西分布的再生性. 

50. 若随机变量 f 服从柯西分布 , M = 0 ,A = 1,而试证关于特征函数 
成立着 

4,(0 =/,(0 •/” ⑴ 

但是 f 与77并不独立. 

51. 设6 相互独立且均服从同一柯西分布，试证 : 1(&+匕+ *” 

n 

+ 么）与&同分布. 

52. 若€ ~ yv ( M , f 2 )， 试用特征函数法求芯 

• 53. 求证•.对于任何实值特征函数/(0,以下两个不等式 成立： 

1-/ UO 彡4(1-/(0) 

l +/(2 t ) 彡 2(/ ⑴） 2 
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* 54. 求证，如果 /(«) 是相应于分布函数 F (：0 的特征函数，则对于任何 a 
值恒成立 

lim = F(x + 0) - F(x - 0) 

55. 随机变量 f 的特征函数为/(0,且它的 《 阶矩存在，令 

h = + [^ T lo g / ⑴]» k ^ n 

称;^ 为随机变量 f 的 A : 阶半不变量. 

(1) 试证 77=06(6 是常数）的 A ( bl ) 阶半不变量等于; 

(2) 试求出半不变量与原点矩之间的关系式. 

56. 若随机向量 （ f ,7；) 服从二元正态分布 N ( fi x 9 fi 2 y a \ ,£7*2 , p ) ，试写出： 

(1) ( fry ) 的特征 函数； 

(2) 的密度 函数； 

(3) 当时 77 的条件密度函数，并讨 论/9 = -1^=1 及 p = 0 等特殊怡 
况下结果的概率含意. 

57. 若& H 相互独立，均服从 W (0,1) ,而 

n n 

Vi= X » V2= X 仏， 

k =1 k = 1 

n 

试证 A 与仏独立的充要条件为 ^> A =0. 

A = 1 

58. 设相互独立，具有相同分布 AU / x ，^ 2 ), 试求 

s = 的分布，并写出它的数学期望及协方差矩阵.再求 t 的分 

: n fn 

<^n J 

布密度. 

59. 若 （ f , r ?) 服从 ，而 

U=a^+brj , V = c^+drj 

(1) 试求 U 与 K 的数学期望，方差及相关 系数； 

(2) 写出 （ f /, V ) 的 分布； 

(3) 讨论： 何种情况下， （ f /, V ) 退化为一维 分布； 何种情况下，与 V 
独立. 
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••60. ( Fisher 引理）若，…，总相互独立，均服从 ） ，记 
n fr { n tri 

试证： 

(1) 尤与 < 相互 独立； 

(2) ； 

( 3 ) —T ^xl-r 
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第五章极限定理 


§1. 伯努利试验场合的极限定理 

一、问题的提出 

在第一章中我们已经指 岀：人 们在长期实践中发现，虽然个别 
随机事件在某次试验中可以岀现也可以不出现，但是在大量重复 
试验中却呈现岀明显的规律性，即一个随机事件岀现的频率在某 
个固定数的附近摆动，这就是所谓“频率稳定性”.对于这点，迄今 
为止，我们尚未给予理论上的说明. 

数学上怎样来描述在一定条件下的大量重复试验呢？我们在 
第二章已经建立了伯努利试验这一概率模型，并指岀它可以作为 
在一定条件下的重复试验的数学模型.在伯努利试验中，各次试验 
是相互独立的，并且在每次试验中，我们所关心的事件4出现的 
概率持不变，这些特征可以看作是从数学角度把“在 
一定条件下”、“重复试验”等等用语的含义加以明确化. 


在伯努利试验中，若以 A 记 n 次试验中4出现的次数，则& 

n 

便是在这〃次试验中事件^出现的频率，所谓频率稳定性无非是 
指当试验次数〃增大时，频率 &接近 于某个固定的常数. 

n 

这个固定的常数就是事件^在一次试验中发生的概率.由此 
可见，讨论频率&的极限行为是理解概率论中最基本的概念—— 
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概率所不可缺少的.正是这个缘故，在概率论的发展史上，极限定理 
的研究一直占重要地位,而它的发源地就是伯努利试验这个概型. 

从前几章的讨论中我们知道，是随机变量，它服从二项分 
布 

^1^=^! =(JpV _A , & = 0,1,2,…， n 

其数学期望 E ^ n = np ， 方差 D ^ npq . 这在一定程度上帮助我们进 
一步了解了频 率&的 性质.但是我们更需要知道的是 n 很大时 

n 

或&的 性质. 
n 

显然，当 / i 很大时，—般也很大，所以直接研究 A 不很恰 

当，还是研究频率心为宜.因为 £：(—) =/>, />(—) = H f 所以当 

n \ n I \ n I n 

00 时，频率的数学期望保持不变，而方差则趋于0.我们知道方 

差为0的随机变量是常数，于是我们自然预期频率将趋于常数/> 

(即事件4发生的概率）.但是频率&是随机变量，关于它的极限 

n 

又将采用何种提法呢？ 

一种提法 是：当 / I 足够大时，频率$与概率 P 有较大偏差的概 

率很小.用数学语言来讲，就是要证 明：对 于任意 e >0 , 

limp | —-p ^ s \ =0 (5.1.1) 

[71 J 

或者它的等价的式子成立，即 

lim / > { —-p <^1 = 1 (5.1.2) 

[ n J 

历史上，雅 • 伯努利第一个研究了这种类型的极限定理，在他 
死后于1713年发表的论文中（这是概率论的第一篇论文！）建立 
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了 （5. 1. 1) 式，这是一大类概率论极限定理——大数定律 （law of 
large numbers ) 中的第一■个. 

关于频率接近于概率还有其他提法，譬如近二百年后博雷尔 
建立了 

Pflim —= p ) =1 (5. 1.3) 

从而开创了另一种形式的极限定理——强大数定律的研究. 

本节只讨论伯努利大数定律，关于强大数定律的讨论将在§4 
中进行. 

为了研究 K 的极限行为，可以讨论它的分布的变化 
情况. 但是由于= / ip , = npq ， 因此对于固定的％来考虑 

PU 入 M 的极限不会有多大意义，因为它将趋于0,所以通常改为 
研究“标准化”的随机变量 


的分布函数 


L 


^a- n P 


-Jnpq 


(5. 1.4) 


P\L < 

的极限行为 ，由匕 的分布函数不难求得^的分布函数. 

关于上述分布，已证明它的极限分布是正态分布 #( o ，1 ) ,即 


HmP|^ n < x \ = — e~ l2/2 dt (5.1.5) 

… V2rr j -- 

这个结果最早由法国数学家棣莫弗 （De Moivre , 1667—1754) 于 
1718年建立，他 对/ > = f 证得了上述结果.后来，1812年由拉普拉 


斯推广到 0< P <1 的一般场合，那是另一类概率论极限定理——中 
心极限定理中的第一个.① 


①关于棣莫弗发现正态逼近的年份众说纷纭，这里采用费勒的说法，见 [2] 174 
页 . 
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下面将会看到极限定理 （5. 1. 5) 的研究直接联系到大 n 场合 
的二项分布的计算，这就顺便解决了第二章遗留下来的一些计算 
问题. 

形如 （5. 1.5) 的收敛于正态分布的极限定理的研究，在长达 
两个世纪的时期内成了概率论研究的中心课题，因此在上世纪 20 
年代由波利亚命名为中心极限定理. 

经过长期的研究，人们认识到，^具有性质 （5. 1. 1) 及 
(5. 1.5) 是由于它是独立随机变量之和，事实上，若令 

1 ,第 i 次试验出现4 
0 ,第 f 次试验不岀现4 
则 

fKh +^ 2 + --+^ 

这里 f ，…， 6 是相互独立的.以后我们将会看到，对于一般的 
随机变量 1 , 2 ,…， n , 也可以研究它们的和的极限定理，并且 
在一定条件下，这个和也具有类似于^的性质，关于这些问题的 
研究就构成了本章的主要内容. 

为了叙述方便起见，我们引进如下定义. 

定义 5. 1 . 1 若 U 2 ，…，匕，…是随机变量序列，令 



(5. 1.6) 

(5. 1.7) 


+矣2 +… +L 


(5. 1. 8) 


如果存在这样的一个常数序列\ …，对任意的 00 ,恒 

有 

limP | I rj n -a n \ <e \ = 1 (5. 1.9) 

n— 

则称序列 I 匕！ 服从大数定律 （ 或 大数法则）. 

在以后的讨论中，我们几乎总是假定 f …,…是独立 
随机变量序列，显然，伯努利大数定律是一般大数定律的一种特殊 
场合. 

关于中心极限定理，我们总是对独立随机变量序列 
L ， …进行讨论，假定及/^存在，令 
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n n 

£ n = isl , .： = r — (5.1.10) 

我们的目的是寻找使 

limP{ C, n < x\ = 一 -— f e 1 2 dt (5.1.11) 

㈣ ~ V^TT j -» 

成立的条件. 

一般，若独立随机变量序列 f i ， f 2 , …， L …的标准化和二使 
( 5 • 1 • 11 ) 式成立，则我 们称丨 么丨服 从中心极限定理 （central limit 
theorem ). 

显然，棣莫弗-拉普拉斯极限定理是中心极限定理的特例. 

二、伯努利大数定律 

我们将证明一个比伯努利大数定律更强的命题. 

1. 切比雪夫大数定律 

切比雪夫大数定律 设 f ， f 2 , …， I ,…是由两两不相关的随 
机变量所构成的序列，每一随机变量都有有限的方差，并且它们有 
公共上界 

^ C , D ^ 2 ^ C 9 •••, ， … 

则对任意的^>0,皆有 

i ^ p { 6 - 士 i 私 <e } =i (5- 1 - 12 ) 

[证明]因为 I 匕 1 两两不相关，故 

°(士 | 小 

再由切比雪夫不等式得到 


• 284 • 




于是，当 n —00 时有 （5.1.12) ，因此定理得证. 

这个结果在1866年被俄国数学家切比雪夫所证明，它是关于 
大数定律的一个相当普遍的结论，许多大数定律的古典结果是它 
的 特例； 此外，证明这个定律所用的方法后来称 为矩法，也 很有创 
造性，在这基础上发展起来的一系列不等式是研究各种极限定理 
的有力工具. 

马尔可夫 （ Ma P KOB , l 856—1 922 ) 注意到在切比雪夫的论证 
中，只要 

\ D ( (5.1.13) 

71 atI 

则大数定律就能成立，通常称条件 (5. 1. 13) 为马尔可夫条件. 

马尔可夫大数定律 对于随机变量序列匕，^,-，1，一，若 
(5.1. 13) 成立，则对任意 e >0, 均有 (5. 1. 12). 

切比雪夫大数定律显然可由马尔可夫大数定律 推出； 更重要 
的是马尔可夫大数定律已经没有任何关于独立性的假定.研究相 
依随机变量序列的大数定律是近代概率论的课题之一，但是这已 
超出我们讨论的范围. 

2. 伯努利大数定律与泊松大数定律 

伯努利大数定律 设 A 是〃次伯努利试验中事件4岀现的 
次数，而 P 是事件4在每次试验中出现的概率，则对任意 s >0, 都 
有 

limPj ^--p <<4=1 (5. 1. 14) 

® I n 
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[证明]定义随机变量 A 如 （5. 1. 6) ,则 

E ^= p ， 

而 

上 fjr 上 i E “A-p 

^ ftTi n kt\ n 

故由切比雪夫大数定律立刻推岀伯努利大数定律. 

显然，伯努利大数定律也可以通过切比雪夫不等式直接加以 
证明： 

Pf ^-p ^e\ (5.1.15) 

I n J e { ti \ ne ^ne 

历史上，伯努利是通过直接展开和繁复的计算才证得大数定 

律的. 

泊松大数定律 如果在一个独立试验序列中，事件4在第々 
次试验中岀现的概率等于 P , ,以记在前 n 次试验中事件4出现 
的次数，则对任意£>0,都有 

limpf 卜一 W … y ， <^1 =1 (5.1.16) 

/i— » [ n n J 

[证明] 定义匕为第& 次试验中事件4岀现的次数，则 

E ^k =Pk » Dl=p k (l - p k ) 

再用切比雪夫大数定律立刻可以推出 （5. 1. 16). 

泊松提出了不同于伯努利试验的另一种独立试验模型，证明 
了二项分布的逼近定理，导出泊松分布（皆见第二章 §4) 以及证 
明了上述大数定律，从而奠定了他在概率论发展史上的重要地位. 
顺便指出，也是他第一个使用“大数定律”这一名称. 

纵观大数定律发展史，对科学发展规律的理解，启发良多.首 
要是新概念的提岀，从伯努利的首创，到泊松的推广，再到切比雪 
夫，模型越来越普遍.其次是方法和数学工具的进步，从伯努利的 
直接估算，到切比雪夫的矩法，显然后者有力得多.还有，细致的考 
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察也十分重要.马尔可夫通过对老师切比雪夫证明细节的深入研 
究，提岀使用最普遍而又摆脱独立性的条件，成集大成者.这些规 
律为后来的发展一再证实. 

3. 大数定律的重要意义 

伯努利大数定律建立了在大量重复独立试验中事件岀现频率 
的稳定性，正因为这种稳定性，概率的概念才有客观意义. 

观察个别现象时是连同一切个别的特性来观察的.这些个别 
的特性往往蒙蔽了事物的规律性.通过平均，在大量观察中个别因 
素的影响将相互抵消而使总体稳定.例如，虽然每个气体分子的运 
动带有很大的随机性，但是作为气体平均特征的压力、温度等却是 
稳定的，大数定律说明了这种稳定性.古人用“定律”来称呼这类 
命题，大概认为它与物理学中的运动三大定律，万有引力定律，化 
学中的定比定律等一样是宇宙固有的规律. 

从现代的观点来看，大数定律也是一类数学定理，它有一定的 
条件和假设，其结论可以通过通常的数学方法证明.它的要点在 
于 :一、 要求〃很大，即它是一类极限定理.在数学中，极限定理有 
的是; 二、关于平均值，这就有点概率论 特色； 三、建立概率接近 
于1或0的规律，这是概率论研究中特别强 调的； 四、规律的产生 
是大量独立或弱相关因素积累的结果，这就涉及统计独立性这一 
概率论特有的概念.因此大数定律是概率论这一学科中最有特色 
的命题. 

总之，大数定律在偶然性与必然性之间架起了桥梁，对人类认 
识客观世界大有启迪，是自然哲学的重要组成部分.另一方面，大 
数定律也有许多应用.例如，伯努利大数定律还提供了通过试验来 

确定事件概率的方法，既然频率&与概率有较大偏差的可能性 

n 

很小，那么我们便可以通过做试验确定某事件发生的频率并把它 
作为相应概率的估计.这类方法称为参 数估计 ，它是数理统计中的 
主要研究课题之一，参数估计的重要理论基础之一就是大数定律. 
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下面我们以保险业为例来说明人类如何利用大数定律以增进 
社会福祉. 

天有不测风云，人有旦夕祸福.自然界和社会生活都充满着不 
确定性.一场灾害或事故可使一家人立即陷人经济困境，个人对此 
无能为力，但社会却可建立损失分担机制，保险业与精算学应运而 
生•作为精算科学基础的保险原理，即损失分担原理，可以认为是 
大数定律用保险术语的重述. 

精算学的研究主题是分析巨大的、不可预测的损失的各种金 
融后果，并设计某种机制以缓冲这类损失的有害的金融效应.例如 
在财产保险中每月支付一笔小钱以求在一场大火或失窃后得到高 
额赔偿，便是人类对抗偶然性的有效方法. 

为规避某类风险，人们找中介即保险公司，保险公司则创造满 
足下面4个条件的 群体： 

1 . 损失是不可预 测的； 

2 . 风险是独 立的； 

3. 风险是齐 性的； 

4. 这个群体相当大，使得各个个体要求赔偿的整个损失额变 
成相对确定. 

读者不难把上述4个条件与前面讲过的或后面将要讲到的大 
数定律成立的条件作对比. 

因此可以说，保险业是人类利用大数定律的范例. 

三、棣莫弗-拉普拉斯极限定理 

大数定律只断言 Pf ~ p 彡当 n—oo 时趋于0,也即匕接 

[ n J n 

近于；>，而橡莫弗-拉普拉斯极限定理则给出 A 的渐近分布的更 
精确表述. 

下面定理给出了两个结果.第一个结果提供了 P \^ n = k \ 的渐 
近表达式，这类结果一般称为 局部极限定理 .第二个结果给岀了标 
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准化随机变量的渐近分布，称为 积分极限定理 ，它是一般中 
y/npq 


心极限定理的特例.这两个结果既有区别也有联系. 

定理5.1.1(棣莫弗-拉普拉斯）若是〃次伯努利试验中 
事件4出现的次数,0</><1，则对任意有限区间[心6] : 


⑴当彡 6 及时 ，一 致地有 

^/npq 




^ lk ) 



(5.1.17) 


( ii ) 当 71—00 时 ，一 致地有 



/终 n - n P 
^/npq 



(5.1.18) 


其中 = 



(-00 <x<00 ). 


[证明]先证局部极限定理，我们将给出一个比 （5. i . n ) 更 
为精确的渐近式. 

因乂只能在有限区间 [ a , 6 ] 中取值，故当 00 时， 


k = np-\-x k y/ npq 


j=n-k = nq -x k v 飞 pq 
由斯特林 （ Stirling ) 公式： 


可知 


! =^/2 tuu , 


n\ 


0<6 n 


1 


\2ml 


P { ^ = k ]= l ^ j\ PqJ 


n n ( 


^/ink k k e ~ k ^/2Tijf 

= _i _ L _/3£\ 

k l \ n ~ h l 


-k+~Y 


(5.1.19) 
(5. 1.20) 


(5. 1.21) 


(5. 1.22) 
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其中扣 m , 因此 


士 4 + ; 


由 .（5. 1. 19) 及 （5. 1.20) 知 


= l + x L /—. — 


np nq 



我们将利用展开式 


In ( 1 +A：) = "■ 一 ^7+ . 


( 5 . 1.23) 


(5. 1.24) 


(5. 1.25) 


来对它们进行估计.这个展开式当时收敛，但只有对绝对 

值很小的那种％值才收敛得快.现在，当〃充分大时，及 

V np 

都很小（因此，当 P = 0及 P = 1时不能用；此外，当/>或7很 

小时，渐近展开式引起的误差也较大,这时我们已推荐用泊松逼近 
公式）.所以 

^(^/2TTnpqP\fjL n =k\) 

= 沒一 ( np+x k ^/npq + 士 ) ln( 1 + 、 J^pj 

= 0-^np+x k ynpq 

.I [q~ x 2 k q x\q/npq x\q \ 


一 M~x k 


\Aw+yj 
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. I_ x IY x Ip x\p^pq x\p 2 ^ \ 

\ kA \j nq 2nq 3n 2 q 2 An 2 q 2 ) 

= 0--^-+ -^ P (x\-3x k ) 

2 67^ 

+ \ 2 npq [ 3 ( 〆 切 2 ) W - ( 戶》:] +0 ( 士） （5. 1. 26) 

因此 


P \/ JL n = k \ 


1 : exp f 4 扭 ( 土 3 〜 


V^rr \fnpq 1 2 6 ^/npq 


n 


4 


^/ 2 tt y/npq 


( q - p )( x \- 3 x k ) 


6 ^/npq 




(5. 1.27) 


取其第一项即得 （5. 1. 17)， 因此我们已证得了局部极限定 
理.显然，我们得到了更精确的估计式.又知当 pi 及4-3\=0 
时，近似效果尤佳. 


下面转入证明积分极限定理. 


P\a 




np 


^/npq 


< 


P\ np + a^/npq ^ /x n < np + b^/npq ) 
h 

: X P ^ n =^\ (5.1.28) 


上式中 M 为不小于 np + a ^/npq 的最小整数， A : 2 为小于 np 


的最大整数，由局部极限定理知当〃充分大时，对任给 

占 > 0 ,有 


P \ fi n =ic \ 


y/npq 


{(p{x k )+s k ) , \s k \<s 


(k = k l A + l ， … ， k 2 ) 


代人 （5. 1.28) 式得到 
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pu ^< b ) 
[J 


h 


h 


1 -7^=^ - I ~P= 

t = ^/npq k = k r ^/npq 


因为有 

k 2 


1 


灸 i \J 几 pq 


^ ~^(k 2 - 卜 + ix (6 ~ a) ^ — e 


\Jnpq 


^/npq 


故当 71— oc 时，注意巧的增量为 += ，就得到 

y/npq 

p\a np < 4 —r …)心 

I- ^/npq J J a 

定理到此完全证毕. 

利用 e ^ /2 (^ = l , 不难证明在积分极限定理中，当 
一 00，6 = +00时仍然 成立. 


四、棣莫弗-拉普拉斯极限定理的一些应用 


棣莫弗-拉普拉斯极限定理虽然是作为二项分布的近似而推 
导出来的，但是它的重要性远远超出数值计算的范围.对它的各种 
推广形式的深人讨论将在以后几节进行，这里我们先介绍一些它 
的具体应用，其中有些解决了第一、二章遗留的问题. 

[推导伯努利大数定律]积分极限定理断言 A 的分布渐近 

于正态分布 W (叩，，因此伯努利试验中事件4出现的 频率& 

Tl 


的分布渐近于正态分布这里可以想象，当 71— 00时 ，& 

\ n I n 

的分布会收敛于退化分布 



x^p 

x>p 
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这正是伯努利大数定律所确定的事实.下面来严格证明. 
给定 s >0, 对任意正数/，只要 n 足够大，就有 

\\! npq <en 

因此 


所以对大的 


\/npq 



p\ 

^n~ n P 


fK— n P 

1 

\/npq 

1 1 

n 


由积分极限定理，当时，上式左边收敛于 


( e~ x2/2 dx 

V^TT ^ ~ 1 

对于任给扒 0 , 可以选 Z ， 使得上面积分值大于 1-1 因此对充分大 
的 n 有 


p {\i ： ~ p r \ >l ~ 8 

这就证明了伯努利大数定律，从这里也可看出，积分极限定理比大 
数定律更精确. 

[用频率估计概率时的计算问题]由积分极限定理 




这个关系式可用来解决许多计算问题. 

第一类问题是已知求概率 ~p < q ; 这时只要利 
用 （5. 1.29) 并查正态分布函数少 ㈠ ）的数值表就可解决，这类问 
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题在二项分布计算中经常会遇到. 

[例 1] 蒲丰试验中掷硬币4 040次，出正面2 048次，试计 
算当重复蒲丰试验时，正面出现的频率与概率之差的偏离程度不 
大于蒲丰试验中所发生的偏离的概率. 

[解]蒲丰投币中频率=与概率的偏离为 e = 

-y = 0.006 93,故所求概率为 

B = P { - ^0.006 93 1 =2^ f 0.006 93 - 

k I 4040 2 J \ 

= 20(0.881 0)-1 =2 x 0.810 9-1=0.622 



第二类问题是要使&与 P 的差异不大于定数 e 的概率不小于 

n 

预先给的数比问最少应做多少次试验？这时只需要求满足下式 
的最小〃， 

20卜 展、 -1^/3 (5. 1.30) 

这也可通过查表求得. 

[例 2] 某品牌往常的市场占有率为15%，今公司决定再做 
一次抽样调查，要求误差小于1%的概率达到95%，问至少要抽多 
少户？ 

[解]很好设计的抽样调查方案完全适合于伯努利概型.这 
时 £r = 0.01 ，P = 0. 15，々= 0.95,下面利用 （5. 1.30) 求、即 

0 ( 0.01 / n - ) ^^ = 0.975 
\ V 0. 15 x 0. 85 / 2 

反查标准正态分布函数的数值表得 


因此 
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n ^4 898.04 


抽样调查方案设计中，样本大小的确定至关重要，一方联系着 
结果的精度与可信度，另一方联系着开支预算与工作量.上例中/> 
有以往的信息可用，但在一般情况下只能靠估计或设计一个小型 
调查以提供初值. 

第三类问题已知〃及沐求 I 这类问题是在进行误差估计时 
提岀来的.解法 如下:先找％ 使 

2 少 (〜） - 1 

这时 



即为所求.若 P 不知道，则利用有下列估计式 


(5. 1.32) 

2^fn 

这类估计在蒙特卡罗方法中很有用处. 

[例 3] 在上例的市场占有率抽样调查中，若预算只许调查 
2 000户，可信度仍要求为95%，这时的抽样误差达到多少？ 

[解]这正是第三类计 算题. 这时 n = 2 000,^ = 0.95,/) = 
0.15,要求&代人公式得 


£T = 1 . 96 


10. 15 x 0.85 

V ~~2 000 """" 


= 0.015 65 


假如这个误差在允许范围内，就可 实行; 若认为误差太大，则只有 
增加抽样数量，这就要求追加预算. 

[概率的置信区间估计]由积分极限定理 


P 






- P 

n 



Ip ('- p) 

s 

V n 





(5. L 33) 
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其中％满足20(%)-1=沐只要71相当大. 
对 P 的二次方程 

一 2 P (1 - P ) 


O ) =2 

求解并略去 i 的高阶无穷小项得： 


n 


P 




•一 Y 


Sfl - 化） 
n \ n J 


n 




1^.( l.^L) 
\ n ‘ 


n 


-P 


(5.1.34) 

在数理统计中称我们已在置信 水平供 一般为95% ) 下得到概率 /> 

的置信区间 


Mn 










Tl 


： + 2 0 , 


n 


(5.1.35) 


[局部极限定理在二项分布计算中的应用]局部极限定理 


给出 


(3 


p q 




) 


,1 (5.1.36) 

Wnpq v ^ 2 tt / 

这个事实由图 5. 1. 1表示出来，其中阶梯函数给岀概率 
而粗线则给岀对应的正态分布密度函数 曲线. 

我们来利用局部极限定理对 ( ^ 进行近似计算. 


因为标准正态密度函数 

( p ( x ) 


\/2 tt 


<x<co 


(5.1.37) 


有专门数值表，当 / i 较大时，对二项分布的计算可用下列近 似式： 


Q 


p q 


y/npq 


<p( x k) 


(5. 1.38) 
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O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x 


图 5.1.1 二项分布的正态逼近 

其中用这种方法计算当然会有误差，但实践证明（也能 

\jnpq 

利用 （5. 1. 27) 作理论分析），当 p 不太接近于0或1,而; I 又不太 
小时，都能得到良好的结果. 

下面就用这种办法来解决第二章§4中提岀的一些二项分布 
计算问题. 

先来计算人寿保险的例 4(1) /那里要求计算6(40；10 000, 
0.005), 利用 （5. 1.38) 

6(40; 10 000,0. 005) 

〜 1 / 40 -10 000 x 0. 005 \ 

yiO 000 x 0.005 x 0. 995 \\/10 000 x 0. 005 x 0.995] 

= ^(1.418),^ x 0.145 6 = 0.020 7 

而精确值为 0.021 4,误差 不大. 

[积分极限定理在二项分布计算中的应用]积分极限定理 
给岀 ’ 


(5. 1.39) 


[V^pq J 
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心是标准正态分布函数，利用它可以计 


其中 ^>( x ) = 

算形如 p ! h 丨的概率. 

因为当〃充分大时 ，6( h «, P ) 即使对于最可能成功次数，其 
数值也很小，这时讨论成功次数等于 某数& 的概率便没 
有太大 意思; 相反，计算^的值落在某一区间 [ h l 9 k 2 ] 的概率倒十 
分重要，因此积分极限定理在二项分布近似计算中更为有用. 
我们有 



n( , , , n { h l - R P ~ n P _ h 2 ^P] 

P \ h l = P H=^ , —— ^"^= =r | 

Wnpq ^npq ^/npq J 

(5.1.40) 

W n pq 1 W^pq I 

细察图 5.1.1 可以看出，在用连续型分布正态分布逼近离散 
型分布二项分布时存在着偏差.对应于离散值7,8,9,10的矩形面 
积，相应的该是6.5<%<10.5上的曲边梯形面积，因此下面的修正 
公式，常能得到更好的近似 效果： 




k 2 - np +0. 




•01 


k { -np- 0 . 5 \ 


\Jnpq 


(5. 1.41) 

当 /> 不太接近 0 或 1, 而； i 又不太小时，用这个近似式能得到 
良好的结果. 


特别当卜=卜时 ，（5. 1.41) 化为 （5. 1.38), 与局部极限定理 
的结果完全统一. 

例如，我们来完成第二章§4中的一些计算.人寿保险的例 
4(2) 要计算 P \ fi ^70\ ，利用 (5. 1.41) 

P\fi^70] 


^ 70-10 000x0. 005+0. j -10 000x0. 005-0.5 、 
" W10 000x0. 005x0. 995 ) ~W^0 000x0. 005x0. 995 ] 
= 0(2.91)—0( - 7. 16)= 少（ 2.91)- [1 一少 （ 7. 16)] =0.998 
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这里 0(7. 16) 取为1,此外计算中还用到 ( P (- x )= 1-0 U ), 这由 
W 幻的对称性即得. 

可见,保险公司有很大把握假设死亡人数不大于70人，并可据此 
作各种估算.当然70是举例性的，读者不妨试着计算 Pl / i ^ l 00|. 

第二章§4的例5,即机票超售问题，作为贯穿本书的一个案 
例，是很现实的一个问题，为使问题能在允许的篇幅内有答案，已 
被数学模型化，假定各个旅客登机的独立性，归为伯努利概型，并 
把问题的要求加以简化与明确，即对不同的超售额 w 计算发生麻 
烦（即有旅客被拒登机）的概率.这是在用数学解决实际问题时必 
须经过的一步，也是没有标准答案的一步，因此不同理论修养和实 
践经验的应用数学家将采用大相径庭的数学模型来处理同一个实 
际问题. 

我们的方案是对适当的 m 计算如下 概率： 

P = P|/i>200!= 6(A ；； 200+m,0.95) (5.1.42) 

ft >200 

有了积分极限定理以及近似计算公式 （5. 1.41)，任务不难完成. 
例如当 m = 7 时， 

P = Y 6(A ；； 207,0.95) f 2 -^ 207xQ - 95 ^ Q：5 ) 一 

、 7207x0.95x0.05 1 

^^201-207x0.95-0.5 ^ 

* ^207x0.95x0.05 ' 

= 0(3.460)-0(1.228)= 0. 9997-0. 8903 =0. 1094 
相应于1,2,3 ,4 ,5 ,6,7的 P 值已列于第一章§ 1中，供主 
管部门使用.实际问题的最终解决大都要求应用数学家与实际部 
门反复磋商.显然 （5. 1.42) 也可用泊松逼近计算. 

现在我们能够解决第二章§4例6中提出的车间用电问题 
了.该问题是要求 r , 使 

P\fi ^ r| = 土 ( 200 ) (0. 6) A (0.4) 20 °- ft ^ 0.999 (5.1.43) 

kTo \ k I 

我们可以利用积分极限定理计算这个概率. 
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200 


0( 


(0.6) k (0.4 ) 2 °°- k 

:/ 

r - 200 x 0. 6 + 0. 5 、 
^200 x 0. 6 x 0. 4 J 
- 119.5 




~~ 200 x 0. 6 - 0. 5) 


^/48 


- 0( - 17. 39) 


^200 x 0. 6 x 0. 4 
- 119.5 


0 


^48 


彡 0. 999 


查表得 


所以 


119. 


^/48 


3.09 


141 


这个结果表明< 141) > 0.999, 所以我们若供电141千 
瓦，那么由于供电不足而影响生产的可能性小于 0.001, 相当于在 
8小时工作中有半分钟受影响，这在一般工厂中是允许的.当然不 
同的生产单位，可能提出不同的要求，那么我们可以改变 
(5.1.43) 右端的概率值，但是方法还是同样的. 

再来计算作为分子运动模型的例7,其中 P = y ,/ i = 5.4 xlO 22 . 

P \ \ fi - np \ > 2. 7 x 10 I2 | 


Pi 


\ fi - np 


\fnpq 


2.7 x 10 12 


> —== 
^5.4 x 10 22 



= pflif ~ n P 1 > 23. 2 1 - f* e- t2/2 dt 

[Jnpq J 

这个数值非常小，从少 U ) 的数值表中不能找到，但我们可以 
用下面方法对它进行估计. 

由于对2 > 0有 

f e~ (2/2 dt < 丄 f 《 e _ * 2/2 (k = 丄 ^ 2/2 (5.1.44) 

J z z J z z 
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利用它可以得到 

丄 f ， 2/2 心 < 丄. - i - e - 269 12 < 10， 

>/2 it ' 232 y /2 ir 23.2 

这概率非常非常之小. 

这种计算为分子运动论提供佐证 :虽然 每个气体分子的运动 
轨道、速度、方向都是随机的，但因为分子数量十分巨大，从宏观上 
看，作为平均特征的压力、温度等却是十分稳定的. 

现在也能对第一章§1中的高尔顿板这个试验作理论解释 
了.读者可能早已想到，近似小球高度的曲线是正态分布密度函数 
曲线.这完全正确.事实上，高尔顿板可以看作是伯努利试验的一 
个实验模型.如果我们把小球碰到钉子看作是一次试验，而把从右 
边落下算是成功，当然从左边落下就算是失败，这时就有了一次 P 

的伯努利试验.小球从顶端到底层共需要经过〃排钉子，这就 

相当于一个〃次伯努利试验，剩下的只是要说明为什么高度曲线 
会是正态分布密度函数曲线，这个问题留给读者思考. 

§2.收敛性 

从下节开始，我们将把在伯努利试验场合建立的极限定理推 
广到更为一般的场合，本节为此准备必要的概念与工具. 

从上节的讨论中我们已经看到，概率论的极限定理研究的是 
随机变量序列与分布函数序列的某种收敛性，下面我们将给这些 
收敛性以明确定义并讨论它们的有关性质.这些结果对于深入研 
究概率论也有着独自的重要性. 

特征函数是研究极限定理的有力工具,从上章的讨论中我们 
已经知道，它与分布函数互相唯一确定，本节中我们将证明这种对 
应还具有某种连续性，这些性质决定了特征函数在极限定理研究 
中的特殊地位.顺便还得到特征函数的充要条件，这个结果在平稳 
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随机过程的研究中有基本的重要性.本节定理的证明都较长，初学 
时可以略去，后面用到的是结论. 

一、 分布函数弱收敛 


中心极限定理讨论的是分布函数列收敛于正态分布.事实上， 
在棣莫弗-拉普拉斯积分极限定理中，若记 

F n (x)=p\ f ^<x\ 

IV 啊 J 

则定理的结论可以表述为 

F n (x)^(x) 

这正是一个分布函数列丨 F n ( x )\ 收敛于某一个分布函数少（％)，这 
种收敛对每一点％都成立. 

这个考察对于我们引进一般分布函数列的收敛性定义很有帮 
助，在给岀定义前，我们再来看一个例子. 

[例 1] 令 

1 

0, M - 

F n (^)=\ H ( 5 . 2 . 1 ) 

1，％>-丄 

n 

这是一个退化分布，它可以解释为一个单位质量全部集中在％ = 
一^■这一点的分布.当00时，我们自然认为丨匕（幻 | 应该收敛 

TI 

于一个单位质量全部集中在这一点的分布，即 


rO , 

F (^) = 

[ 1 , ^>0 

但是， (0)=1, 而 F (0)=0, 显然 ，匕 (0) Y — F (0). 因此看来要 
求分布函数列在所有的点都收敛到极限分布函数是太严了.上例 
中不收敛的点是极限分布函数 Fix ) 的不连续点. 

定义 5.2.1 对于分布函数列丨匕(幻丨，如果存在一个非降函 
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数 FU ) 使 

\ imF n ( x )= F ( x ) ( 5 . 2 . 2 ) 

n—^oo 

在 FU ) 的每一连续点上都成立，则称匕(幻弱收敛于 FU ) ,并记 
为匕 U ) — 

这样得到的极限函数是一个有界的非降的函数，我们也可以 
选得它是左连续的，但是下例说明，它不一定是一个分布函数. 

[例 2 ] 取 

{ 0 , x^n 

/ ( 5 . 2 . 3 ) 

1 , X>Tl 

显然 lim /^ U )= 0 对一切$成立，但 F ( x )^ 0 不是分布函数. 

/I— 

当然，若已知分布函数列 I & U ) 丨弱收敛于分布函数 F { x)R 
G (x) 9 m F ( X )= GU ) 对一切 X 成立. 

我们希望能得到一个分布函数列弱收敛于一个分布函数的充 
要条件，为此先建立一些重要的分析结果，这些结果对一般的有界 
非降函数列都成立，它们的弱收敛概念类似地定义. 

引理 5 . 2 . 1 设丨匕（ 4 |是实变量 1 的非降函数列，/)是只 1 
上的稠密集.若对于 Z ) 中的所有点，序列！ F n ( x )\ 收敛于 FU ) ,则 
对 FU ) 的一切连续点 X 有 

11111 ^(^) = F ( x ) ( 5 . 2 . 4 ) 

n—^oo 

[证明]设％是任意点，选？ 使？ 由非 

降性知 

F n (x f )^F n (x)^F n (x^ 

因此 

F ( x r ) ^ \ imF n ( x )^ U ^ F n ( x ) ( F ( x ，，) 

因为 0 在 R 1 上稠密，故 

F ( a ;- 0 ) ^ limF n ( A ；) ^ limF n ( x ) ^ F ( x + 0 ) 

- n—^oo 

/ i—oo 

所以对于 FU ) 的连续点成立 （ 5 . 2 . 4 ). 
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下面证明海莱 （ Helly ,1884 — 1943) 的两个重要定理. 

定理 5.2.1( 海莱第一定理） 任一一致有界的非降函数列 
I F n ( x )\ 中必有一子序列 j F nk ( x )\ 弱收敛于某一有界的非降函数 
F ( x ). 

[证明]任取 R 1 上的一个到处稠密的可数点集下面我 
们就取有理数全体，并排列为 r lt r 2 , …，、，•••.对于序列 
，这是一个有界的实数序列，故必包含一收敛于某极限 
的子 序列丨 ，即 

现在考虑序列丨6，„(「 2 )丨，同样由于有界性，在其中存在子序 
列丨 F 2 Jr 2 )\ 收敛于某一值 G ( r 2 ). 这时，同时成立着 

^ mF 2,n( r i)= G ( r i) > lim ^2,n( r 2)= G ( T l) 

n—►» 

继续这样做，可得序列 i (幻丨，使 

^ mF m , n ( r k )= G ( r k ) y A ；= 1 ，2 ,…， m (5. 2. 5) 

n—^cc 

同时成立. 

这样，我们得到了丨 F n ( x )\ 的如下子序列 

厂1，1(太），厂1,2( 怎）， ^\,3(^)，…，厂1,«(太），… 

F 2,l( X ) » F 2,l( X ) y 尸 2 , 3 ($)，…，^^($)，… 


F mA X ) > 、 ,2( 幻， ^, 3 U)， …，… 

. (5.2.6) 

这里每行都是前一行的子序列，而且它们具有性质 （5. 2. 5) .选取 
这个阵列的对角线元素 F n Jx ) 构成新序列丨(幻丨，由于它是 
从丨分出来的，故 lim ^, 其次，除第一项外, 

n—^ao 

它是由丨匕，»丨分岀来的，故 —^，„(「 2 )=(；(~).—般地，对任 

n —►» 

何固定的 h 皆有 G (') ，因此对一切有理数 r , 

n— 

^ imF n , n ( r )= G ( r ) ( 5 . 2 . 7 ) 

fl —► oo 

这里的 G ( r ) 是定义在有理数上的函数，它也是有界与非降的. 
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对一切％ eR 1 , 定义 


F ( x )= supG ( r k ) 

r k^ x 

这函数在一切有理数上与 G (幻相等，它显然也是有界与非降的. 
由引理 5.2.1 知 

\ imF ntn ( x )= F ( x ) (5.2.8) 

n—^ oo 

对 F (幻的一切连续点成立，这就证明了定理 5. 2. 1. 通常形象地 
称这个定理的证明方法为对角线法. 

极限函数不一定左连续，但总可以改变它不连续点上的 
值使之左连续，这样的改变显然不影响 （5. 2. 8) 式的成立. 

定理 5.2.2( 海莱第二定理） 设 /( 幻是 [ a , 6] 上的连续函 
数，又彳匕 Q ) 丨是在 [ a ,6] 上弱收敛于函数 F (幻的一致有界非降 
函数序列，且 a 和6是 FU ) 的连续点，则 

lim f f ( x ) dF n ( x )= f f ( x ) dF ( x ) 

J a J a 

[证明]由函数 /( 幻的连续性推知，对任意正数 & 总可以 
找到一种分割，把区间 [ a ,6] 分为[% ,&],[〜 士 
(其中 ％= a , 〜 = 6) 等/ V 个小区间，使得当 xe 1> A ，〜 J 时， \ f { x ) 
-/( A ) 1<&利用这种情况，我们能导入一个辅助函数人(％)，它只 
取有限个值,并且当 A <^< h +1 时,/>)=/(々）. 

这样显然对 a ^ x ^ b 的一切^皆有不等式 

\ f ( x )- f e ( x)\<e (5.2.9) 

在此我们可预先选取分点 A ，使它们是 F (幻的连续 

点.因为丨 F n ( x )\ 弱收敛于 F ( x ) ，故当/ I 充分大时，在此 iV -1 个分 
点、及 X 0 ， X N 上成立不等式 

(5.2.10) 

这里 M 是 1/( 幻 I 在区间 a ^ x ^ b 中的最大值.显然， 
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\ b J{x)AF{x)-\ b J{x)^F n {x) 

f a f(x)dF(x)-fy s (x)dF(x) 
b f e (x)dF(x)- f f e (x)dF n (x) 

a J a 

f f s (x)dF n (x)-f:f(x)dF n (x) 


(5.2. 11) 


由于 （5.2.9) 式， 

'/(x)dF(x)- f/ e (x)dF(x) 


I fs( X ) dF n( X )- f f(x)dF n (x) 


^s[F(b)-F(a)] 

(5.2. 12) 

^s[F n (b)-F n (a)] 

(5.2. 13) 


而由 （5.2.9) 式 ，（5.2. 10) 式可知 

f e (x)dF(x)- [ f e (x)dF n (x) 


I E / ⑷ [ F (〜）] 

ft = o 

~ ^Zf( X k)l F n( X k + l) - F n( X k)] 

k=0 

I ^f(x k )[F(x k+l ) - F n (x k+l )~\ 

k = 0 

一 Y,f( X k)l F ( X k) - F n( X k)'\ 




e 


MN MNJ 


2e 


(5.2. 14) 


因此 




f(x)dF(x)- f(x)dF n (x) 

a J a 

e[F(b)-F(a)]+e[F n (b)-F n (a)]^2s 
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由于 I 匕 w t 的一致有界性，上式右边可以任意小，故定理得证. 
定理5.2.3(拓广的海 莱第二 定理）设 / U ) 在 （-00 ，①） 上 
有界连续，又 i /^ U ) 丨是 （-00 , 00 ) 上弱收敛于函数 FU ) 的一致 
有界非降函数序列，且 

UmF n ( - oo)=F(-oo), limF n ( oo ) = F( oo ) 

► oo n—►oe 

则 

lim f f(x)dF n (x)= [ f(x)dF(x) 

打— 00 J -00 •/南 00 

[证明]设4<0,5>0,令 

7,= f f(x)dF n (x)- f f(x)dF(x) 

J ― 00 J — 00 

B b 

J 2 = [ f(x)dF n (x) - f f(x)dF(x) 

J A J A 

y 3 = (° f{x)AF n (x)- C f{x)AF{x) 

J B J B 

显然 

f f(x)dF n (x) - f f(x)dF(x) 《 J i+ J 2 +J 3 

J — Q0 J — 00 

由于/(幻是有界的，存在常数 M >0, 使 l / u ) l < M . 又由于序 
列丨 ^(^)1 的一致有界性，只要4与的绝对值充分大，并使4和 
B 是 F ( x ) 的连续点，而 n 也取得充分大，则可使 A ,/ 3 小到预先给 
定的程度.事实上 

Ji ^ f f(x)dF(x) + [ f(x)dF n (x) 

J ― QD J — 00 

^M[F(A)-F(-oo )]+M\F n (A)-F n (-oo ) I 

⑷ - F (- oo )] 

+M[ IF„(A)-F ⑷ l+IF(A)-F(-x) l+IF(-oo )-F n (-oo)|] 

而按假定有 

limF n (i4) = F(A) 9 \imF n ( -oo ) = F( -oo ) 

n — ► oo n — ► oo 

故当 4 绝对值充分大时, /, 可以任意小. 
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对/ 3 作对应的处理，则当充分大，并注意到 

limF n (fi) = F(B) , limF n ( + oo )=F(+oo ) 

/i— oo n—♦ » 

•/ 3 也可以任意小.再根据定理 5. 2. 2, 只要 Ti 充分大，也可使人任 
意小，从而证得了定理. 

•二、连续性定理 

下面我们将导出一个分布函数列弱收敛到一个极限分布的充 
要条件，这个结果同时说明了存在于分布函数与特征函数之间的 
一一对应是连续的，这个性质对于特征函数成为研究一些概率论 
极限定理的主要工具有基本的重要性. 

定理 5.2.4( 正极限定理） 设分布函数列|匕（幻丨弱收敛于 
某一分布函数 F(x) ，则相应的特征函数列 \f n (t)\ 收敛于特征函 
数 / G ) ，且在£的任一有限区间内收敛是一致的. 

[证明]函数，在 -oo <^<00 上有界连续，而 

f n (t)= f e itx dF n (x) 
f(0= f e itx dF(x) 

J — oo 

因此由拓广的海莱第二定理即知当时，有 

/«⑴一/⑴ 

至于在£的每一有限区间内收敛的一致性（均勻性），由拓广的海 
莱第二定理的证明就可看出. 

定理 5. 2.5( 逆极限定理） 设特征函数列 i / n (0 l 收敛于某 
一函数 / G ), 且 /(«) 在 f = 0 连续，则相应的分布函数列丨弱 
收敛于某一分布函数而且/(0是玖幻的特征函数. 

[证明]由海莱第一定理，知必存在子序列丨/^(幻丨弱收敛 
于某一非降函数 FQ ) ,且 FU ) 可视为左连续的.极限函数 F(x) 
显然满足 F(-oo ) 多 0, F(oo )<1,我们来证明 FU ) 是分布函数. 
否则，应有 
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5 = F(oo )-F (- oo )<1 (5.2.15) 

任取一正数因 /( f ) 是特征函数列的极限，故/(0)= 1. 
由于 /(«) 在£ = 0是连续的，故可选取充分小的正数 T , 使 

古 |厂/⑴叫>1十5+| (5.2.16) 

同时选取 X 多土及尺，使左多尺时， 

TE 


8 k =F nk (X)-F nk (-X)^8 + f 

又因 /„,(«) 是特征函数，那么 

f_/J0^=|^[| T e itx dt] dF nk (x) (5.2. 17) 


显然 


还有，在 UI > X 时， 


e itx dt\^2r 


f e itx dt 

一 

2 . 

— sin rx 

j-r 


X 


(5.2. 18) 


因此 


fn k (^ dt 


f (f e iw ck) dF nk (x) + j ff T e itx dt) dFjx) 


< + ~x 


所以 


令 A —00 ，由控制收敛定理知 

h\\j (t)dt \^ s+ f 
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这与 （5.2. 16) 式矛盾，因此 (5.2. 15) 式不成立，也即应有 

F(-oo )=0, F(oo )= 1 

因而 FU ) 是分布函数.再由定理 5. 2. 4推知 /( f ) 是的特征 
函数. 

进而证明丨丨也弱收敛于同一分布函数 F ( x ). 如其不 
然 ，一 定存在 F { x ) 的一个连 续点％使丨匕(乂 ） 丨不收敛于 F ( x 0 ). 
这时可从中选取一个收敛的子序列丨,其极限 
广（％。）根据海莱第一定理，一定可以选取丨/^(%) 1的 
一个子序列 i F mk ( x )\ 弱收敛于某一有界的非降函数 f ( 幻，这个 
极限函数至 少在％ 点与 F (幻不相等.但重复前面的论证可知 
亦应是分布函数，其对应的特征函数也是 /( G , 由唯一性定 
理，我们又有广（幻=引出了矛盾.故 iF „ U )| 弱收敛于 
FU ), 于是证得定理. 

在逆极限定理中，若保留“特征函数列 iA (01 收敛于某一函 
数/(0” 的要求，而把 “/(«) 在 f =0 连续”的要求改成“特征函数列 
i /„ G ) 丨在包含原点的某一区间中一致收敛于函数/(0”，则定现 
的结论仍然 成立. 这是因为由一致收敛性及入 G ) 在原点的连续性 
可以推知 /( G 在原点的连 续性. 通常把“特征函数列 i 人 （01 在 
(-00 ，oc ) 上的任一有限闭区间中都一致收敛于一个函数八简 
称为“ 1又(£)丨内闭勻敛于/(0”，这样我们就可以把分布函数列 
弱收敛于某一分布函数的充要条件简述为 ：它相 应的特 
征函数列 |/ R (0 I 内闭勻敛于某一函数 /( G . 

通常把正逆极限定理合称 连续性定理， 因为它们表述了分布 
函数与特征函数一一对应关系的“连续性”.这定理最先由法国数 
学家莱维 （ L 6 vy , 1886—1972 ) 及瑞典数学家克拉默 （ Cramer , 
1893— 1985) 证得，因此又称 莱维-克拉默定理. 

三、随机 变置的 收敛性 

概率论中的极限定理研究的是随机变量序列的某种收敛性， 
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对随机变量收敛性的不同定义将导出不同的极限定理，而随机变 
量的收敛性的确可以有各种不同的定义，现在就来讨论这个问题. 
首先，分布函数弱收敛的讨论启发我们引进如下定义. 

定义5.2.2(依分布收敛）设随机变量匕（0) 的分布 

函数分别为匕(幻及 FU ) ，如果 '(幻二 FU ) ,则称1依 
分布收敛 （convergence in distribution ) 于 ^(( o ) ，并记为 f w ) —► 

其次，由伯努利大数定律，我们很自然地引进下面的定义. 
定义5.2.3(依概率收敛）如果 

limPj \^ n { oy )- aoy )\^ s \ =0 (5.2.19) 

n—^oo 

对任意的^>0成立，则称 i 1 ( 0 )! 依概率收敛 （convergence in 
probability ) 于 w ) ，并记为 i n (( o )-^ i (( o ). 

这样一来，伯努利大数定律可以重新叙述如下： 

设 / x n 是〃次独立试验中事件4出现的次数，而 P 是事件4在 

每次试验中岀现的概率，则频率&依概率收敛于概率 P . 

n 

上述两种收敛性之间的关系可以从下面定理中看到，这也说 
明了随机变量序列依概率收敛性的重要性. 

定理 5.2.6 

[证明]因为，对/<%有 

\^<X f \ = \L< X ^< X， \ + Un^ X ^< X， i 
C \^ n <x \ + \^ n ^x 9 ^<x f \ 

所以我们有 

F(x f )^F n (x)+P\^ n ^x^<x f \ 

如果^丨依概率收敛于 6 则 

p \L^ x ^< x， \ 矣尸 I ^x-x r \-^0 

因而有 

Fjx^^limFSx) 


• 311 - 



同理可证，对/>1，成立 


limF» W ，） 

71—00 

所以对/<%<%",有 

F(x r )^： \imF n (x) ^h^F n (x) ^F(x f, ) 

n —*. 

如果％是 F ( x ) 的连续点，则令趋于％可得 

F(x)= \imF n (x) 

n—oo 

定理证毕. 

由于不同的随机变量可以对应于同一分布函数，因此一般地 
讲，由分布函数列的收敛性当然推不出随机变量序列的其他收敛 
性.试看下例. 

[例 3] 若样本空间 12= ! o) l f co 2 1，/^(叫 ）= w 2 ) = ■，定义 


随机变量 f ( o 0 如下: )= -1 ,心）=1,则 i ( co ) 的分布列为 



(5.2. 20) 


若对一切 t 令 ( 0) ) = 显然 i n ( CO ) 的分布列也是 

(5.2. 20) ,因此 ^( co )-^ i ( co ). 但是对任意的 0< s <2 f 


PI lL(co)-i(co)l>si =p\n\=i 


因此 1 不依概率收敛于 M ，这为定理 5. 2. 6之逆提供了 
反例. 


进一步，若令(仿）=彡（⑴) U ①）= (仞）贝0 f ) -*• 

依然成立，但此时对随机变量序列 I 匕 （0) 1实在很难有其他 
的收敛性可言. 

但是,在特殊场合却有下面结果. 

定理 5 . 2 . 7 设 c 是常数，则匕二 4 c . 

[证明]由定理 5. 2. 6可知只须证明由依分布收敛于常数 
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可推出依概率收敛于常数.事实上，对任意的^>0, 
p\ \L-C\^s\^P\L^C^\^P\^ n ^C-e\ 

= l-F n (C^s)+F n (C-s+0) 

— ^1 - 1+0 = 0 
( n—yoo ) 

因为有的大数定律是讨论随机变量序列收敛于常数的，这时将用 
到上述结果. 

仔细考察上节关于大数定律的证明，有助于理解下面关于随 
机变量收敛性的第三种定义. 

定义 5.2.4 (r 阶收敛）设对随机变量匕及 f 有五 If「<cc , 
^ l ^ l r < oo ，其中 r >0 为常数，如果 

UmE\^ n -^\ r = 0 (5.2.21) 

则称 I 匕 I r 阶收敛 （convergence in r-order mean ) 于 并记为 

下面定理揭示了 r 阶收敛与依概率收敛的关系. 

定理 S .2.8 ^ 

[证明]先证对于任意00,成立 

E\( -(\ r 

P \ - ■- (5.2. 22) 

e 

事实上，若以 F ( x ) 记匕的分布函数,则仿切比雪夫不等式 
的证明可得 

p|i =[ df ( x ) 

J 1*1 

^ f l -^-dF(x) ^ I x\ r dF(x) 

_E \ L-^ r 

e r 

不等式 (5. 2. 22) 是切比雪夫不等式的推广，通常称作马尔可 
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夫不等式，当 r =2 时就是切比雪夫不等式.定理 5. 2. 8是马尔可 
夫不等式的直接推论. 

下例说明定理 5. 2. 8之逆不真. 

[例 4] 取/2=(0，1],^为（0，1]中博雷尔点集全体所构成 
的 o •域， P 为勒贝格测度.定义=0及 


o )=« 

0 , 


, 0<w ^― 
n 

— 1 
n 


(5.2. 23) 


显然对一切0^/2，匕(0)-^(0)，又对于任意的^>0, 

w) I ^e\ 

n 

因此匕 一 ►€，但是 

以匕 • 丄 =i 

n 


在 r 阶收敛中，最重要的是 r = 2 的情况，这时称为均方收敛. 
下面是关于随机变量收敛性的第四种定义. 

定义5.2.5(以概率1收敛）如果 

P\ lim^ n (w) = f ( w) I =1 (5.2.24) 

n—^cc 

则称 I 匕（如） 1 以概率 1 收敛 （convergence in probability 1 ) 于 , 


又称 I 匕 (0>) I 几乎处处收敛于 i ( co ) ，记为 ^ n ( co )-^ i ( co ). 

以概率 1 收敛是概率论中较强的一种收敛性，但是正如例 4 
所表明的，一般并不能由它推出 r 阶收敛.关于以概率1收敛的讨 
论将在§4中继续进行，在那里将证明可由以概率1收敛推岀依 
概率收敛. 


* 四、波赫纳尔 （ Bochner )- 辛钦 （ Xhhhhh ) 定理 

利用这个机会，我们来叙述并证明一个关于特征函数的重要 
定理. 
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定理 S .2.9( 波赫纳尔-辛钦）函数/(0是特征函数的充要 
条 件是: /(0非负定，连续，且/(0)= 1. 

在证明的过程中，顺带证明了一个在随机过程中将用到的与 
上述定理类似的赫格洛茨 （ Herglotz ) 定理.为此，有 

定义 5.2.6 如果对任意的正整数/ I 及复数，…,均有 


X 2 ^ 0 (5. 2. 25) 

A = 1 j = 1 

则称复数列 C„u = 0， ± l ,±2, …）是非负定的. 

定理 5. 2.10( 赫格洛茨）数列 C„U = 0， ± 1，±2, …）可以表为 

C n = 厂 e inv dG ( x ) (5.2. 26) 

的充要条件是它是非负定的，其中 G (幻是 [- TT , TT ] 上有界、非降、 
左连续函数. 

定理 5.2.9 的必要性已在第四章§5中证过，定理 5.2. 10的 
必要性也可类似证明，下面只需证明充分性. 

由于/(0是非负定的，故对任何 W 实数 A 及复数 

n 


1，…, iV -1), 皆有 


1 n ~ i 


e -Kk-jU ^ 0 

易知，其中使等于 r 的项有 / V - IH 个， r 可由 -7 V +1 变到 N - l . 


因此 

^ ( N n ) ( x )= f (l 

r= -N \ 


从而 

f e isx ^ ( N n ) ( x)dx = X f 1 

J -it r= -N \ 


由于 

厂 e~ i(r - s)x dx = 

r ， 


• — IT 

L 2 tt , 


-)/： 


K isx J 

e 
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所以 

其中 

是一个在 [- ir ， ir ] 上有界的非降函数，其全变差为 
以)〜）⑴山 =/(0) = 1 

补充定义 X<_TT 时 F { N n ) ( x )= 0 ；^>TT 时，/^(：0= 1，则 FUl ) 是 
一分布函数. 

按海莱第一定理，存在序列％，使当00时乂―00，并使函 
数序列 Ffu ) 弱收敛于某一非降函数 F ( n ) ( x ). 又因对任何 TV 及 
£?> 0 , 

F ( N n) ( 0, F ( N n) (ir+e)= 1 

因而也有 

F (n) ( 0, F u) ( ir+e)= 1 

所以 F u ) U ) 也是分布函数. 

按海莱第二定理， 

lime^dF^C^) =|" e isx dF (n) (x) 

所以，对一切整数 s(s = 0,± l ，±2, …）有 

O =厂 e isx dF {n) (x) 

至此我们已顺便证明了赫格洛茨定理.特别地 



=厂 e ix dF in) (x) 

-tr 


( 5 . 2 . 27 ) 


考虑特征函数序列 
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A(0= f e itx dF n (x) 

-/iir 



其中 F „(^)= F (n) -. 易知对一切整数灸有 

n 


(5.2. 28) 


n 


n 


k 


对任何 《 ，我们总能选取序列 k = k ( n ， t )， 使 0 G -一<一. 由于 


n n 


/(«) 连续，从而 

/(0 = w [上）= lim/ n (Aj 

\ n / 找 ― 00 \ n / 

如能证明对一切实数《，有 

/⑴= 

n — ►« 

那么由逆极限定理即知 /(«) 是特征函数了. 
为此，由 （5. 2. 28) 式和 （5. 2. 29) 式有 


(5.2.29) 


(5.2. 30) 


⑹人⑴=⑴ -/„(—) ] +/„(—) } 

n—«o LL \ fl / J \ n / J 

= f ( t ) + Hm [/„(0 _/»(+) 1 (5.2.31) 


k 


令沒-一，那么0《0<—.按 /„ G ) 的定义，有 
n n 


Lit) -/ n (A) 


e _*( e 咖- l ) cLP » 


r nir 

^ I e 

-air 


Wx 


I dF n ( x ) (5.2. 32) 


利用柯西-施瓦茨不等式，可得 

r I e 咖 - 1 I dF„(^) ^ 


I e 咖 -1 l 2 dF„(^) 


2(1 - cos Ox ) dF n ( x )^ 




=[2(1 - Ref n (0 ))] T (5.2. 33) 

其中 Re /„(0) 为乂 （0) 的实数部分.既然在 0< a < i 及 KrcTT 时 
有 cos cos ay ，则 
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1 - B . ef n (0) = [ (1 - cos Ox ) dF n ( x ) 

—MT 


r 71 r 71 

二 (1 - cos dny ) dF n ( ny ) ^ ( 1 

^ - IT ’ — ： 


- cos y ) dF n ( ny ) 


=[(1 - cos y ) dF (n) ( y ) 

J -IT 

=1 - Ref e , y dF { n ) ( y ) 


再由 （5. 2. 27) 式我们得到 

1 - Re ， ⑷彡 1 - Re /( i -) (5.2.34) 

合并 (5. 2. 32),(5. 2. 33),(5.2. 34) 式，即得 

人⑴ OhK )) 

注意到 /( o )= i ， 则由 /(«) 的连续性推得 

，[人⑴-人 (+)1 = o 

于是由 （5. 2. 31 ) 知 （5. 2. 30) 成立，定理证毕. 

若不证赫格洛茨定理而直接证波赫纳尔-辛钦定理，有比较 
简练的证法，可参看 [26] 141-142 页. 

+ 五、关于等待时间分布的注记 


第三章中对伯努利试验中出现的几何分布及帕斯卡分布与泊 


松过程中岀现的指数分布及埃尔朗分布的对应关系已有阐述，这 
里将用特征函数作为工具深入处理. 

若 L 服从参数为『及/>„的帕斯卡分布，其中 r 为正整数，概 
率化满 足/^ A ，由 （4.4. 13) 及 （4. 5.3) 知其特征函数为 


/“㈤= ( 



(5.2.35) 
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记1=1么，则 I 的特征函数 

n 

fJu)=Ee^=Ee^=f in (^) 
注意到 （5.2.35) 即知 

i 土 


\ A „ e , ^- n ( e , ~- l )/ U-uW 

从 (4. 5.8) 知(点厂= (1 -手厂是埃尔朗分布 r (/*, A ) 的特征 

函数，故由连续性定理得知第 r 个跳跃时刻服从埃尔朗分布. 

当 r = l 即得几何分布与指数分布的相应结果. 

§3 . 独立同分布场合的极限定理 

一、 独立和问题 

在 §1 中，我们讨论了伯努利试验场合事件 4 出现次数的 
极限行为，曾指出^可以表示为〃个独立随机变量之和（以后简 
称“独立和”），并对它证明了大数定律及中心极限定理，后来又看 
到这些定理有重要应用.这里自然会提出这样一个问 题:这 些性质 
是否只在伯努利试验场合才具有？ 

研究表明，许多独立和具有类似的性质，本节就要进一步讨论 
这个问题. 

独立和的问题经常出现，例如测量一物体的某种尺寸，如测量 
一个圆柱体的直径 <通常采用的办法是对它进行〃次测量，得到 
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数值 K 2 ，•",&， 然后采用平均值 

+《2 +… + 匕 
-^- 

作为 d 的数值.我们知道，测量时有各种随机因素影响，因此其结 
果带有随机性，这时是随机变量之和，如果各次测量是独立的, 
Vn 便是独立和.为了说明上面所用办法的合理性就必须研究独立 
和. 但这里的6不服从伯努利 0-1 分布，因此已不是伯努利试验 
场合的问题了. 

在数理统计中已经把上述做法一般化.为了研究总体（它通 
常描述我们感兴趣的某一类现象）的某些特征，就对总体进行若 
干次观察以得到一批观察值 f ， f 2 ,…，匕，并称它们是一个容量为 
〃的样本.再利用这个样本来构造各种统计量，例如 

n ^ n 

以对总体的相应特征作各种推断.虽然每次观察得到的是具体的 
数值，但是为了比较各个统计量或各种推断方法的优劣，有必要把 
这些观察看作是某随机变量 f 的观察值，通常假定匕 ，匕 ，… ，匕是 
相互独立的，且它们与 f 具有相同的概率分布，这时上面的两个统 
计量便都是独立同分布 （independent and identically distribution 简 
称 i . i . d .) 的随机变量之和. 

独立和的问题在许多实际问题中也出现，例如在计算电车整 
流站的电力负荷时，就遇到独立和问题，因为整流站的电力负荷等 
于各电车使用电力之和，每辆电车在某时刻的用电量是随机的，作 
为初步近似，可以假定各电车的用电量是相互独立的，因此这里遇 
到的正是独立和.在车间用电问题中，若有多类车床，用电量各不 
相同，则总用电量也需通过独立和来计算. 

可见独立和问题经常遇到，而且各加项一般都不是 0-1 分 
布.本节专门讨论各个加项服从相同分布的场合，这是实际工作 
(特别是在数理统计）中最常碰到的.从数学方面来看，这是最简 
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单、最基本、最便于处理的，而且所用的处理方法可以相当方便地 
运用到更一般的场合. 

在上章§5中，我们讨论过独立的服从同类型分布的随机变 
量之和的分布问题，证明了某些分布的再生性，使用的工具是特征 
函数.现在我们要处理的问题与那里有很大区别，首先我们将对很 
一般的分布进行讨论，因而再生性通常都不 满足； 其次，不是对固 
定的〃进行讨论，而是讨论 00时的情况，即研究极限定理.从 
数学的角度来看，它们可以看作是伯努利试验场合极限定理的推 
广，这里也是研究大数定律与中心极限定理. 

所使用的工具还是特征函数.我们已经看到它很适合于处理 
独立和问题，有了上节的连续性定理，我们将进一步看到，它也很 
适合于处理极限分布问题.事实上，正是由于特征函数这一有力工 
具的使用，使得所有古典极限定理在短期内便得到了完满的解决. 
拉普拉斯就已经知道并应用了特征函数，俄国数学家李雅普诺夫 
(7 lH n y HOB ，1857 — 1918) 最先发现并证明了收敛于正态分布的连 
续性定理（但并未明确叙述），从那时起，特征函数的理论不断得 
到完善.在这当中，法国数学家莱维有突出的贡献.现在，特征函数 
法已经成了概率论的基本方法之一. 

二、辛钦大数定律 

在§1中，我们已经通过切比雪夫不等式建立起多种大数定 
律,那里都假定了方差的存在性，但是在独立同分布场合，并不需 
要有这个要求，这就是有名的辛钦 （ 1894 — 1959) 大数定律告诉我 
们的.用特征函数作为工具，这个定理很容易证明. 

定理5.3.1(辛钦） 设…是相互独立的随机变 
量序列，它们服从相同的分布，且具有有限的数学期望 

a = Hn 


则对任意的 e >0, 有 


• 321 • 



•一 a <占} = 1 (5.3. 1) 

[证明]由于…，匕具有相同分布，故有同一特征函 
数，设为/(0,因为数学期望存在，故/(0可展开成 

/( 0 = /( 0 ) +/^(0), + o ( f ) = 1 +iaf + o ( t ) (5. 3. 2) 

而丄 f f 的特征函数为 

71 i= 1 

Kt)! = l l +ia t + 0 (i)l (5 - 3 - 3) 

对于固定的 f 

— ► oo ) (5. 3. 4) 

极限函数 e iaf 是连续函数，它是退化分 布 / aU ) 所对应的特征函数， 
由逆极限定理知 i 么的分布函数弱收敛于 / a u )， 再由定理 

n i = 1 

5. 2.7 知丄& 么依概 率收敛于常数 a ， 从而证明了定理. 

71 iT\ 

显然，伯努利大数定律是辛钦大数定律的特殊情况. 

辛钦大数定律在理论及应用中，特别是在数理统计中，十分® 
要，下面通过两个例子来略加说明. 

[例 1] (矩估计的相合性）假定总体 f 的均值％未知， 
通常的做法是对 f 进行〃次独立重复观察，得到样本匕，^ 2 ,…， 
并以它们的平均值 

作为％的估计量，这样做法的根据之一是依辛钦大数定律应有 

j P 

A { - ►mj 

它表明，当样本容量〃很大时, A 作为％的估计量是合理的.这 
个性质在数理统计中称为相合性， 是选择估计量的最起码标准 
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之一 • 

更为重要的是，根据辛钦大数定律，若总体的 A 阶原点矩 
Et 存在，这时样本的&阶原点矩 

n t = 1 

作为 m , 的估计量也成立 

P 

A k - ” n k (5.3.5) 

即样本&阶原点矩火是总体 A 阶原点矩 m , 的相合估计量.利用 
中心矩与原点矩的简单关系，立即可证中心矩也有类似性质.因此 
辛钦大数定律保证了矩估计的相合性. 

[例 2] (用蒙特卡罗方法计算定积分）为计算积分 

7= [ g ( x)dx (5. 3. 6) 

J a 

可以通过下面概率论方法实现. 

任取一列相互独立的、都具有 [ a ，6] 中均勻分布的随机变量 
1^1，则丨也是一列相互独立相同分布的随机变量，而且 

b — aJ a o—d 

既然 

J =( b - a ) • Eg (^) (5.3.7) 

因此只要能求得 Eg (^) ，便能得到 J 的数值. 

为求 Eg (么），自然想到大数定律，因为 

- (5.3.8) 

n 

这样一来，只要能生成随机变量序列 1 就能对积分 （5. 3. 6) 
进行数值计算，而生成1的关键是要生成相互独立相同分 
布的16丨，这里的&均服从 [ a ，6] 上的均勻分布. 

现在已经可以把上述想法变成现实.这就是在电子计算机上 
产生服从均勻分布 [ a ，6] 的随机数并利用 （5. 3. 7) 及 （5. 3. 8) 
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式估算 •/， 这种做法与我们在蒲丰投针问题中通过投针计算圆周 
率 1 T 的做法是一致的.这种通过概率论的想法构造模型从而实现 
数值计算的方法，正如第一章§4所言，已形成一种新的计算方 
法—— 概率计算方法 ，亦称蒙特卡罗方法，它在原子物理、公用事业 
理论中发挥了不少作用，这个方法的理论根据之一就是大数定律. 
至于计算积分，蒙特卡罗方法的实用场合是计算重积分 

/= f g ( P)dP (5.3.9) 

J K 

其中 P 是 m 维空间的点，当 m 较大时，用蒙特卡罗方法比一般数 
值法有优点，主要是它的误差与维数 m 无关. 

三、中心极限定理 


我们转而考虑如何把积分极限定理推广到相互独立相同分 
布,但分布函数为任意的随机变量序列的场合，这类问题在实际应 
用中非常重要. 

若 f ，&，•••，&，…是一串相互独立相同分布的随机变量序 
列，且 

E^ k , D^ k = a 2 (5.3.10) 

我们来讨论标准化随机变量和 

_ 〆 ) (5.3.11) 

( Ty/n “I 

的极限分布. 

林德伯格 （ Lindeberg ) 与莱维建立了下列中心极限定理. 

定理5.3.2(林德伯格-莱维）对于标准化和 （5. 3. 11)，若 
0< o* 2 <oo ,则 


[证明] 


! W 心忐/ 



(5.3. 12) 


记的特征函数为 g (0, 则么 的特征函数为 




由于 


= M ， W/c = a 2 故 g ’（0)= 0， g "(0)= - cr 2 . 因此 
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g(t) = 1 - ^r(r 2 t 2 + o{t 2 ) ( 5 . 3 . 13 ) 

所以 

A^) 1 = [ 1 士 + 。(4)]-’ 

(5.3.14) 

由于 e _ f 2/2 是连续函数，它对应的分布函数为#(0，1)，因此由逆极 
限定理知 

定理证毕. 

用这个定理立即可以推出棣莫弗 -拉普 拉斯积分极限定理. 
林德贝格-莱维定理有广泛应用.在实际工作中，只要〃足够 
大，便可以把独立同分布的随机变量之和当作是正态变量.这种做 
法在数理统计中用得尤其普遍. 

[例 3] 在数理统计中，为对总体 f 的许多未知特征进行推 
断，通常的做法是抽取一个容量为〃的样本 f ， f 2 , …， I ,把它们 
看作独立同分布随机变量，为进一步提取信息，还构造一个或几个 
统计量，匕，…，么 ）A = 1,2,…， m 作为主要工具.在推断中通 
常需要知道这些统计量的分布，事实上却又十分难求，一种解决途 
径是借助于大样本理论，即在样本容量很大时，求这些统计量的渐 
近分布.这时多半利用林德伯格-莱维中心极限定理. 

事实上，若 m 2 k C 存在，则由林德伯格-莱维中心极限定 
理，有 

A k =-~ X ^ 的分布渐近于 ^ ^ n mk ) • 

特别地 ，当& = 1 时，若 =/ x ，^存在，则 
士 i ( 的分布渐近于 #(〜*) 

i — 1 
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这些结论在统计学的几大 分支: 点估计、置信区间及假设检验中都 
经常用到. 

下面我们介绍另外的两个例子. 

[例 4] (正态随机数的产生）在蒙特卡罗方法中经常需 
要产生服从正态分布的随机数，但是一般计算机只备有产生[0, 
1] 均勻分布随机数（实际上是伪随机数）的程序.怎样通过[0，1] 
均勻分布的随机数来产生正态随机数呢？这有多种途径，最常用 
的是利用上述定理来实现. 

设 U 2 ，…,匕，…是相互独立、均服从[0，1]均勻分布的随机 
变量，这时定理5.3.2的条件得到满足,故^ 1+ ^ + - + ^渐近于正 
态变量.一般〃取不太大的值就可满足实际要求.图 5. 3. 1中给岀 
了 n = l ,2,3 时的图像.在蒙特卡罗方法中，一般取 n = 12,并用 
(5.3. 15) 式得到新的随机数序列. 



图 5. 3.1 均匀分布卷积 
12 

Vk = X 荅⑽ - i )“ - 6 ， k = 1 ， 2 ,… （5. 3. 15) 

1 

显然丨也是独立随机数序列，而且 E Vk = 0 9 D Vk = \. 经过检 
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验证明，这时 r / A 的渐近正态性已能满足一般精度要求. 

[例 5] (近似数定点运算的误差分析）数值计算时，任何 
数％都只能用一定位数的有限小数 y 来近似，这就产生了一个误 
差在下面讨论中，我们假定参加运算的数都用十进制定点 
表示，每个数都用四舍五人的方法取到小数点后五位，这时相应的 
舍入误差可以看作是 [-0.5 xl 0_ 5 ,0.5 xl ( T 5 ) 上的均匀分布. 

现在如果要求 n 个数 Xi ( i=l ,2,…，; i ) 的和 S ， 在数值计算中 
就只能求出相应的有限位小数％(〖=1，2，一，；0的和 r ， 并用 r 作 
为 s 的近似值.自然要问，这样做造成的误差 T ；= s -: r 是多少？ 

因为我们有 

s = 土〜 = Z a + D = Xa + Zf 

i = 1 i = 1 i = 1 i = 1 

故 


i= 1 

一种传统的估计方法是这样的 ：由于 
W 0.5 x 10 -5 


所以 


I 77 I 彡 Z I ^ - I ^ n x 0. 5 x 10— 5 

i = 1 

以^=10 000为例，所得的误差估计为 

I w 丨彡 0.05 (5.3. 16) 

这种估计方法显然太保守，看来用概率论方法估计是适宜的. 


这时直接求 t 的分布不容易，但当〃较大时用极限定理作 

i = 1 

为工具，则能使问题很快得到解决.因为 


終== 0, 


o' = JWi = 


0.5 x 10" 5 


如果假定舍入误差 f 是相互独立的，《又较大，那么用定理 5. 3. 2 
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得到 


p {| 


e ~ t2/1 di 


^ ~ k 

取灸 = 3 时，上式右边为 0. 997,因此我们能以99.7%的概率 断言： 


,l<3xl00x^2Li0l = 

V 5" 


0.866 x 10 


(5.3.17) 

这只是 （5. 3.16) 式中上限估计的60分之一. 

历史上，误差分析是概率论的重要生长点之一 . 19世纪初德 
国数学家高斯正是在研究测量误差时引进了正态分布并发展了有 
广泛应用的最小二乘法.至今这仍是概率论与生产实际有广泛联 
系的领域之一. 

下面我们把中心极限定理推广到多变量的场合. 

•定理 5. 3. 3( 多元中心极限定理）若/>维随机向量€，&， 
…相互独立，具有相同的分布，其数学期望为 M ， 协方差阵 
为 X ，则 


Vn = I + d 卞） l / V ^ (5. 3. 18) 

的极限分布为#(0,之). 


[证明]对/>维列向量 A , 构造 

L -fi) = A t ”„ (5.3.19) 

y/n » = i 

由于 

E L=-p X a t ( 從卞 ） =0 

y/n t = i 

D L =E ^ = ~ E [ S * Z (《- M )、] 

=~~ X [[ (象 -/ t ) T A ] 

n i = i 

=—y x T sx=\ T xx 

^ frt 
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因此 L 是均值为0,方差为 X T XX 的一维随机变量，由定理 5. 3. 2 
知它的分布函数收敛于 AK 0， A T U )， 因此，若以 A ( f ) 记么 的特征 
函数，则由正极限定理知 

f n ( t )—^ f ( t 9 X )= exp ( - X T XXt 2 / 2 ) ( n->-cc ) (5.3.20) 

而 

f n ( t )= Ee it { n = E \ exp ( itX T rj n ) } 

因而 

/ n ( l ) = Ee ^=^| exp ( iA T iyJ | 

它作为 A 的函数，是％的特征函数.在 （5. 3. 20) 式中，令 f = l ， 得 
到 

人 （ 1 ) —/( 1， A ) = ex P ( - A t IA /2 ) (5.3.21) 

这正是 /> 维正态分布 N ( 0 9 S ) 的特征函数.因此由多维的连续性 
定理即得结论. 

[例 6] 服从 （3. 2. 6) 中多项分布的随机向量，可以看作 n 个 
相互独立相同分布随机向量之和，由定理 5.3.3 可知多项分布渐 
近于正态分布，真正维数为 r -1. 

*§4 . 强大数定律 

一、以概率1收敛 

以前，我们曾顺便提起过以概率1收敛及强大数定律，本节将 
对它们进行深入讨论. 

要彻底搞清以概率1收敛这个概念，必须对事件（点集）序列 
的运算有进一步了解，我们就从讨论这个问题开始. 

OD 

设岑疋，…是一列事件，则 u 圮表示事件序列4, 

n = A 

忠 +1 ，…中至少发生一个，而<则表示4,4 +1 ，…同时发生. 

n 二 k 
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记 


(5.4. 1) 


lim 欠 = f ) \j A n 

n_> ® A = 1 n = k 

\ imA n = u n (5.4.2) 

* = i »=* 

称 ji ^4„ 为事件序列 M „! 的上限事件，它表示炎发生无穷多次，因 

n — ► 00 

为 ⑴ e 0 < 当且仅当 0) 属于无穷多 个人; 类似地称 lim 人为 

事件序列 i 疋 I 的下限事件，它表示炎至多只有有限个不发生，因 
00 00 00 

为 CO e U PM „ ，当且仅当存在一个'使 w e n <，因此若仿发 

A = 1 n = k n ^ IV 

生，则冬，^ ^ ，…同时发生，这时至多只有前面 TV - 1个事件 A , 
…可能不发生（也可能有些发生）. 

显然 


lim 人〕 limA n 

(5.4.3) 

n—^oo 

n—►» 


特别当 limAz liml 时，记 limv4„; 

n— oo - n—► oo 

^\imA n = \imA n 

n— - 

，并称它为事件序 

71— ♦ ® 

列的极限事件. 

ft —~► oo 


利用德摩根定理，有 



(n u 

' 4=1 n:k ’ 

00 00 

卜 u n 忑 

A = 1 n = A 


(u n ^) 

\ A: = 1 n = k / 

ao ao 

= nuJ n 

A= ! n = A 


因此 

* 


lim A n = i 

n— ► ao 

i ^ n ) 

\ n— 1 

(5.4.4) 

lim A n = 

(^) 

\ n—^oo / 

(5.4.5) 
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下面博 雷尔- 康特立 （ Cantelli ) 引理在概率论中有众多的应用. 
引理 S .4.1( 博 雷尔- 康特立引理） 

( i ) 若随机事件序列 I 人 i 满足 


lnA n ) 


则 


=0, P \ UmA n I = 1 

/l—►OD - 

( ii ) 若 1<1 是相互独立的随机事件 i ? 列，则 

X P ( A n ) = 00 

fl = 1 

成立的充要条件为 

P | lim >4 n 1 = 1 或 P | lim >4 n | =0 

n •- ► oo - 

fi—^oo 

[证明] ( i ) 由于 

p \\^ A n \= p{n UA n } 

作一 “ 丨 a = A 

00 00 

彡尸 { U 4”} 彡 Z 川人 1—0 (k (X 

n:k n = k 

由 （5. 4.4) 

尸 I \ imA n \ =1 

( ii ) 先证必要性.注意到 H 丨的独立性，有 

P \ limA n \ = P \ u n ^ j^Pl n A n 


由于 


z n p (忑 ) = z nu - p (<)] 

k — 1 * n = A A = I n = A 

0^\-P(A n )^exp\-P(A n )\ 


lP ( A n ) 


(5.4.6) 

(5.4.7) 

(5.4.8) 

(5.4.9) 


(5.4. 10) 


则从 
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可得 


所以 


[1 - P(AJ] ^ limexp {- ^ P(AJ}= 0 

n s k * n = A 


P \\ imA n \ =0 

a—►» 

OD 

再证充分性.若 P { iI^U = i •假定(人） < 00 ，则由⑴ 
得到 P | \ h ^ A n \ = 0,产生矛盾•因 P ( A n ) ^ 0,故只可能是 

fi— 

0 D 

X 尸(<) = 0 °，引理 证毕. 

n = 1 

现在讨论随机变量序列的以概率1收敛性. 

若匕 ( o 0( n = 1,2, •••)<((«) 是随机变量，则 

I 似 ： limf„((y) = fO) | 

00 OD OD 1 

=\co：n u nf \l((o)-H(o)\<—]} (5.4.H) 

L m = 1 t = 1 n^k \ 爪 J J 

这个式子可以这样理解 :因为 we f lim 么 (w Wh ) 丨 的充要条 件是: 

n—►» 

对任一正整数 m , 存在一个正整数 ； V ， 使当 n > N 时均有 \^(( o )-^( o )\ 

<1;即对任一正整数 m 9 co 属于 ( \ LM-iM l <—) 的下限事件，这 
m \ m ) 

正是 (5. 4. 11) 的右边.从这个表达式中还可以看岀， | lim 匕 （ co ) = 

n-^oo 

以 C 0) I 是事件，因此 

尸 I limK ( y ) = fO ) 1 =1 (5. 4. 12) 

n— 

有明确的意义，这时称 U „( w ) 丨以概率1收敛于 ( lco ). 记为 


因此下面两个式子都_达了 U „( W ) | 以概率1收敛于 (( CO )， 

OD 00 00 ■§ 

U n( l^(^)-^(a>)l<-)Ul ( 5 . 4 . 13 ) 

lm=l k=l n=k \ m ) J 
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pf U n U ( \ L ( co )- Hco )\^-]}=0 (5.4. 14) 

进一步，我们要说明 ，1^(0>)丨 以概率 1 收敛于 f ( CO ) 的定义 
也可以表达 为:对 任意的^>0,成立 

OD 00 

Pin U (\ L ( co )- Hco )\^ e }=0 (5.4.15) 

I A = 1 n:k J 

若以疋记（ \ L (( o )- H ( o )\ ^ s ) ，上式表示人的概率为 o , 这与 

71—►OD 

我们对以概率1收敛的理解一致.不过，对于这个结论，还是给它 
一个严格的证明. 

事实上，由于对£>0,总有 

f n udL ( co )-^( co ) i ^ s )\ 

^ A= 1 n = A J 

00 00 QD 4 

c(u n u [\ L ( co )- Hco )\^-]} 

1 m = l k=\ n=k \ m J J 

因此由 （5. 4. 14) 可以推得 （5. 4. 15). 反之，利用 

00 OD 0D - 

Wu n U (I ( n ( co ) - i ( co ) I ^ — ) } 

l*m = lA=ln = A ' JTl / J 

® 00 00 

^ u (丨 u < o ) - h < o ) 丨彡丄 ）} 

m = 1 ^A=l/i = A ' TTl / J 

可由 （5. 4. 15) 推出 （5. 4. 14) ，这就说明了两种表达法的等价性. 

利用概率的连续性可知 ，（5. 4. 15) 等价于 

HmPf U ( \ L ( co )~ H ( o )\ ^ s )\ = 0 (5.4. 16) 

A—oo [ n = k J 

根据德摩根定理又知 （5. 4. 15) 等价于 

lim 尸 f fl ( K ⑷咖 ） 丨<幻1= 1 (5.4.17) 

[ n = k J 

由于 

I I ^6^} c | U ( J 

因此若 （5. 4. 16) 成立，则 
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limP| \^ k ((o) I ^s \ =0 

•- *—►<*> • 

这样一来，我们已证得 

定理 5.4.1 匕 =>• f„(w) 二在 (&>)•• 

下例说明一般不能由依概率收敛推得以概率1收敛，所以以 
概率1收敛是比依概率收敛更强的一种收敛性. 

[例 1] 取/2= (0,1],，为（0，1]中博雷尔点集全体所构成 
的^域， P 为勒贝格测度，令 

1 ， (0 G i=l ， 2 ,."，众 

Vki((o)= < .一 1 _ (5.4.18) 

0 ， a) g k=l , 2 , ••- 

定义 

专 1((0)= 如（仿），在 2( 似 ）= ”21( 仿），6(仿）= ”22( 仞) 

《4(仿）= ” 31 (仞)(仿） = ”32⑷，… 

一般 = 其中 M = 这样定义的 | 匕 U ) 丨是— • 

列随机变量.但对于任何一个 C 0 E (0,1]，匕 （ C 0)) 必有无限个友，/ 
使其取值0,也有无限个使其取值1，因此 u n ( w )| .不是以概率 
1收敛于 0. 但是另一方面，对任意的^>0, 

当 n -^ oo 时，由 /I 知道 k -^00 ，因此 

limP| l^ n (o>) I ^e\ 

n—►» 

=limP| \r] ki ((o) \^e\ =0 

fi—►» 

所以 1 匕 ( w ) 丨依概率收敛于 0. 

不难验证， U „( w )| 是 r 阶收敛于0的，因此例1也提供了 r 
阶收敛推不出以概率1收敛之例. 

我们以前讨论的大数定律只要求依概率收敛，若把收敛性要 
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求提高为以概率 1 收敛，则得到的大数定律称为强大数定律 
(strong law of large numbers ). 由定理 1 可知，若强大数定律成立， 
则通常的大数定律也一定成立，反之不然.有时为区别起见，把依 
概率收敛意义下的大数定律称为弱大数定律 （weak law of large 
numbers ). 

第一个强大数定律是由博雷尔在1909年对伯努利试验场合 
建立的. 

二、博雷尔强大数定律 

定理 5.4.2( 博雷尔）设是事件4在 n 次独立试验中的 
出现次数，在每次试验中事件4出现的概率均为/>，那么当 n—oo 
时， 

= 1 (5.4. 19) 

[证明]为使 （5. 4. I 9 )成立，由（5. 4 . 15) 知，只须对任意的 
左>0,成立 

W n Uf --P ^^)1=0 (5.4.20) 

I k=\ n = k \ n, I J 

若记欠 =f ~ p 彡则上式可写成.根据博雷尔- 
康特立引理，为证明 （5. 4. 20) 只要能证明级数 

^ e \ (5.4.21) 

n = 1 L tz J 

对任何 e >0 都收敛就可以了. 

假如像证明伯努利大数定律那样用切比雪夫不等式进行估 
计，只能得到 

pj ^ ^ (5.4.22) 

L n J 4 ne 

这对证明弱大数定律足够了，但为了保证 （5. 4. 21) 收敛还不行， 
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这时必须寻找更好的估计式.在这种特殊场合，马尔可夫不等式就 
够用了.由于 



(5.4.23) 


问题是要计算^的四阶中心矩.还是像过去一样，我们把^表示 

XI 


成独立伯努利 0-1 变量 f , , f 2 ,…，6之和，这样 


( ㈠ ) 

所以 



= ~tX X X Yj E d -p)(fy - P) Uk - P ) (专 I - P) 

n* i - 1 y - 1 k = 1 / = 1 


注意到各么的独立性及 E (匕 - p )= 0,因此上面的和式中只有 


Ed - pY 及 EdpYd - py 的项才不等于0,显然 

五 ( 么 -P) 4 =M (/> 3 切 3 ) (5.4.24) 

E(h) 2 (h) 2 二 P 2 q 2 U^j) (5.4. 25) 


(5.4. 24) 形式的项有 n 项， （5. 4. 25) 形式的项有 



3 n ( n - l ) 项，因此 

4 

E [-- p \ =^ Tln ( p 3 + q 3 )+3 pq ( n 2 - n )]<-^ (5.4.26) 

\ n I n 

于是 





4/n 2 


(5.4.27) 


这个估计式已经比 （5.4. 22) 进了一大步，它可以保证 （5. 4. 21) 收 
敛，从而证明了定理. 

从本书第一节介绍随机事件频率稳定性时，我们就期待着这 
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样一个结论，即当试验次数无限增加时，频率将趋于概率,博雷尔 
强大数定律正给出了这个结果.从伯努利大数定律并不能引申岀 


这个结论，它只断言一个不等式 --P 成立的概率可以大于 

n 

1- T ；， 不论 T ? 是什么 正数; 但是事件 


Mn+l 


/^n+2 

o • • • 

^2n 

n+l P 


n+2 P 

* y 9 

2^~ P 


中至少有一个发生仍是可能的，因为它是可列个事件之并，而我们 
只知道每个事件的概率很小.但博雷尔强大数定律则断言 

~ P 以概率1变得很小，而且保持很小.虽然从逻辑上讲，在投 

TI 


硬币时每次都出现正面是可能的，这时&=1，因而并不成 


立，但是强大数定律断言了这种事件发生的概率为 0. 

三、科尔莫戈罗夫强大数定律 

下面讨论更一般的强大数定律，先把其含义进一步明确如下： 
设 I 么 I 是独立随机变量序列，若 

丄 Y (么 - E ^)= o \ = 1 (5.4.28) 

U 一 n fr[ J 

则称它满足 强大数定律. 

根据 （5. 4. 16) ，这等价于要求对任意 e >0 成立 
00 

limPju I 


7 艺 d - ^ I = 0 (5.4.29) 


由于 


U I 

j = m 

C (sup 


「1( 卜吣) 

' i= 1 

tZ 






(5.4. 30) 
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因此需要对概率 - E ^ t ) ^ 6^进行估计，这相当 

J J i = 1 

于在独立和场合对切比雪夫不等式进行推广.这方面已经有不少 
成果，在这里我们介绍一个由噶依克 （ H § jek ) 及瑞尼 （ Rhyi ) 证明 
的不等式. 

噶依克-瑞尼不等式若|么|是独立随机变量序列， = 

00 ， （ 1，2,…），而 | C „ 1是一列正的非增常数序列，则对任意正整 

数 m ， n ( m < n ) 及 6：>0,均有 

p { ^ | i (& -如卜钭 

i c >^ ( 5 . 4 . 31 ) 

E j : l y = m + 1 

[证明]记 

〜 =i % - 咚） 

;=1 

及 

n-l 

V = ^ SliCl - Cl ,) + C 2 X (5.4. 32) 

k — m 

因此 

k = m k = m 

=S 2 m c 2 m + X ( 5 * oc 

k = m-¥l 

利用 1么1 的独立性 

ES\ = ^ a] 

；'=i 

所以有 


恥 =<f>; + 土 C>; (5.4.33) 

j = 1 j = m + l 

对 j = m f m+l ，…， n , 记 
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Ej = \C k \ S A I < £ 9 m k < j ； C ; I Sj \ ^ s\ 

(5.4. 34) 

这样定义的& C / = m , m + l ， …， n ) 是互不相容的，而且 

p {I i 卜舛 

n 

= P ( max C . I S . I ^ yP ( E ：) (5.4.35) 

I m n J j = m 

令 

{ 1 . 0) E . E - 

1 ) = m,/n + 1 ，…， n (5.4.36) 

0 ， co e Ej 

n 

即;^是&的示性函数，注意到&的互不相容性及 C /2， 

j = m 

因而 

n 

2>/如）彡 1 (5.4.37) 

j = m 

所以有 

n 

Et ) ^ ZE ( VXj ) (5.4.38) 

j : m 

对 j < k 彡 n ， 

S k = Sj + (f ;+1 - E^ j+l ) + … + ( 匕 - E^ k ) 

因此 

E ( S 2 ai )^ E { S ] Xj ) 

+ ^l [ (f ;+ i 一從 ; + i ) + ". + d%) ] 2 • 尤 ;1 
+2[ I S ; .[ (f ;>1 -E 专 j+l ) + … + ( 么 -%)]•(• 1 
) + 2E\S j X j [(^ j+l - EU + 

- + (^-^)]t (5.4.39) 

由于只与 &，•••，€ 有关，因此与 [(“ … + ( 匕- 
独立，故 
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■EiS^j) . E [(‘ 一 ％ +1 )+." + (6-WJ]=0 


(5.4. 40) 


而在 & 上 IS y l >|， 故有 


E(S» ^^EX j =^P(E J .) 
因此由 （ 5. 4. 39) ， （ 5. 4. 40) 及 （ 5. 4. 41 ) 得到 

E ( S 2 k Xj ) ^^ P ( Ej ) f j ^ k^n 

现在当 • 矣 n 时，由 （ 5. 4 . 32 ) 知 


(5.4.41) 


(5.4. 42) 


E(VA)= Z[(S 2 A)(C: -Cl,) + C 2 n E(S 2 n Xj) 

k = m 
n-1 

^ ZE(S 2 k Xj)(C 2 k -C 2 k+l ) + C 2 n E(S 2 n Xj) 

k=j 

W *=； 

= e 2 P(Ej) (5.4.43) 

由 （ 5. 4.38) 及 （ 5.4. 43) 


E V ^ s 2 Y p ( E j > > (5.4.44) 

j = m 

利用 （5. 4. 33),(5. 4. 35) 及 （5. 4. 44) 即得不等式 （5. 4. 31 )• 

在噶依克-瑞尼不等式中，特别令 m = 1 ， C > = 1，则得到著名的 
科尔莫戈罗夫不等式. 

科尔莫戈罗夫不等式 设…,么是独立随机变量，方差 
有限，则对任意00,成立 

P {^ (5.4.45) 

z-j J e j^i 

科尔莫戈罗夫不等式是概率论中最重要的不等式之一，有广 
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泛的应用.在上式中，若令1，则得到 
P\\ ^ e\ 

e 

这正是切比雪夫不等式.因此科尔莫戈罗夫不等式是切比雪夫不 
等式的推广，而噶依克-瑞尼不等式又是科尔莫戈罗夫不等式的 
推广. 

利用噶依克 -瑞尼 不等式，能证明下面重要结果. 

定理5.4.3(科尔莫戈罗夫强大数定律）设“ = 1，2广- 

是独立随机变量序列，且 f ^ < 00 ，则成立 

n 

1 n 

p\\im -Ly -^) = ol = l (5.4.46) 
Ln-»oe Tl fr[ J 

[证明]在噶依克-瑞尼不等式中，令可以得到 

J 

p \ ^ s ] 

j J 

由概率的连续性 

p h^ (n ) 叫 

(5 - 4 - 47) 

因为 I ^<°° ，故由 （5.4.47) 得到 

limPjsup i-V - E ^) ^ =0 

m—»oo L I J 
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再由 （5.4. 30) 知 （5.4.46) 成立.定理证毕. 

显然，由科尔莫戈罗夫强大数定律很容易推岀博雷尔强大数 
定律. 


四、独立同分布场合的强大数定律 

在这种特殊的场合，可以找到强大数定律成立的充要条件，这 
个结果也属于科尔莫戈罗夫. 

定理5.4.4(科尔莫戈罗夫）设 U 2 ，…是相互独立相同分 
布的随机变量序列，则 

丄 (6 + f 2 + …« (5.4.48) 

n 

成立的充要条件是存在且等于& 

[证明]若^的分布函数为 fq )， 我们来证明不等式： 

00 00 

又 P|ifi 彡 M 彡 Eifi 彡 i + [ p|ifi 彡 M 

n = 1 n = 1 

(5.4.49) 

事实上， 

00 00 

E\ ^ \ = f Ixl dF(^) = y f I 欠 1 dF(x) 

J -* Ic = Q 】 k^ \ rl < i+ 1 

因此 

00 

y kP\k ^l^l<A;+l| ^E\^\ 

k =0 

00 

彡 Z U+1)PU 彡 lfl<A;+l| 

* = 0 

现在有 

00 00 00 
X kP\k^\^\<k^l\ = XX lfl<A;+l| 

ft = 0 n = 1 k = n 

oo 

=^ P | If I ^ n \ 

n = 1 

及 
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+ l)P\k i I < ^ + 1| 

k = 0 

00 00 
=^ A:PU ^1 ^ I < A ; + 1| + 1 = ^ P || ^ I ^ n ) + 

k = 0 n = 1 

这就证得了 （5. 4. 49). 这个不等式说明 Elfl < oo 的充要条件为 

00 

$ P|I ^\^ n \ < x 

fl = 1 

记\ =&+& + •••+ f „, 若& ■^►从，这里从是有限数，则 

n 

专 n S n Jl - \ *^n-l ° 


0 


n 


(5.4. 50) 


这样一来，事件 I 1匕 I 发生无穷多次的概率为0,因此注意到 

^ 的独立性,并利用博雷尔-康特立引理 （ H ) ，可知 

00 

^ P| I i n \^ n\ <oo 

n = 1 

再由（5.4.49)即知仏匕1<00，这时显然有 a = •，这样，我们已证 

得必要性. 

下证充分性.用“截尾法”，令 

户 ， I fn I < ^ 

i 0, \ ^ n \ ^ n 

先验证满足科尔莫戈罗夫强大数定律条件.以 FU ) 记么的 
分布函数，则 

n n 

D^n ^ E^： 2 = f x 2 dF(x) ^ YJ 2 PU 一 1 彡 I 匕 I < M 




(5.4. 51) 


* D ^* * n h 2 

I ZI 


X Z -1 m 
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Y J k i p\k -1 I < m ^ 


由于 


ttk n k 


i=k+l 


n(n - 1 ) k 


tt + ^ 


因此 


因为 


00 I-\ J- ♦ 00 

Z -%-<2 kP \ k - l ^\^ n \< k \<^ 


P | lim 丄 士 ( f : 0=01=1 


Ef n 


xdF(x) 


显然 limEf =E^ =« ，因此 lim 丄[母 ; =E^ 


(Si - a ) 




X ( 心 - c ) 


Z ( f ； W ) + 丄 Z ⑽•- a ) 

^ ； = ! 


为证(5乂 48) 成立，只须再证二 


= 1 ^ 11 ^ 1 ^^! <e 、I 

i = 1 i= 1 

由博雷尔-康特立引理知，以概率 1 有 

^(co) (似），只对有限个 f 成立 

因此 

p { lim ii(m = 0 } = 1 

L«—►« n J 

这样，定理的证明已经完成. 


. 2_ 

： k 

( 5 . 4 . 52 ) 

a , 由于 

( 5 . 4 . 53 ) 

0. 然而 
I < 00 
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显然,科尔莫戈罗夫的这个结果是辛钦大数定律的加强，只有 

它才能保证在每次试验中当 00 时，样本的均值将最终 

n »= 1 

地趋于总体的 均值； 当然从逻辑上讲也有可能失败，但是这种不愉 
快场合发生的概率等于 0. 用蒙特卡罗方法计算积分所需要的正 
是强大数定律. . 


*§5. 中心极限定理 


一、林德贝格条件与费勒 （ Feller ) 条件 


本节将最后解决古典的中心极限定理.为此先把问题的提法 
作进一步明确. 

古典的中心极限定理讨论的是独立和的分布函数向正态分布 
收敛的最普遍条件.这个问题一方面可以看作是棣莫弗-拉普拉 
斯古典结果的一般化，另一方面也解释了正态分布为什么是最常 
见的一种分布. 

自从高斯指岀测量误差服从正态分布之后，人们发现，正态分 
布在自然界中极为常见.例如炮弹的弹落点服从正态分布，人的许 
多生理特征如身长、体重等也服从正态分布.观察表明，如果一个 
量是由大量相互独立的随机因素的影响所造成，而每一个别因素 
在总影响中所起的作用不很大，则这种量通常都服从或近似服从 
正态分布. 

另外，在数理统计中，经常都假定总体服从正态分布，这也要 
求通过对中心极限定理的研究来阐明这个假定的正确性和适用条 
件. 

现在，这个问题从某种意义上来讲已经得到了最后解决.1922 
年林德贝格提出了充分 条件; 1935年，费勒进一步指岀，在某种条 
件下，这个条件也是必要的.这样就搞清了向正态分布收敛的充要 
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条件.下面就介绍这些条件. 

设…是一个相互独立的随机变量序列，它们具有 
有限的数学期望和 方差： 

= E ^k * b l = D ^k (A ： = 1 ， 2, …, w ， …） 

记 

K = 

k =i 

作标准化和数 



我们需要寻找和数么的分布函数趋于正态分布函数的充要条件. 

与独立同分布场合比较，这里保留了独立性的假定，但是去掉 
了同分布的要求.今后我们将以 A (幻记么的分布函数.显然为 
了讨论的极限分布，要使问题的提法有意义，对各个加项必须 
有一定要求.例如若允许从第二项起都等于0,则极限分布显然由 
A (幻完全确定，这时就很难有什么有意思的结果.排除这个困难 
的办法是规定加项中不能有某些项起支配作用，在实际工作中人 
们就是这样处理的，例如为了讨论测量的随机误差，总预先把一些 
系统性的误差先扣除掉. 

为了使极限分布是正态分布，还要求各个加项“均勻地小”， 
怎样明确表达这个要求呢？下面先作一个启发性的推导. 

设欠表示下述 事件： 

I (k= 1,2, ••- f n) 

则有 

Pi max l ^- aJ > rB n j = p ! U ( 1 匕 - a X )} 

[ k= i J 


= />{ 七 U>4 2 U … U 人 I 彡； X P ( 欠 ) 

k = \ 



dF k ( x ) 
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(rB n ) 2 


if 


k = l J >rB n 


(x-a k ) 2 dF k (x) 


T B n if I J I x-a k \ > 

因此，只要对于任何 T >0, 成立 

lim - 


(x-a k ) 2 dF k (x) 


(x-a k ) 2 dF k (x)=0 (5.5.2) 


—1 J\x-a k \ >rB n 

就可以保证总和 （5. 5. 1) 中各加项“均匀地小”.上述条件 (5. 5. 2) 
称为林德贝格条件. 林德贝格证明了条件 （5. 5. 2) 是和数 （5. 5.1) 
的分布函数趋于正态分布函数的充分条件. 

但是林德贝格条件不是中心极限定理成立的必要条件（参看 
习题 53) .不过，费勒进一步指出，假如下面条件得到 满足： 


lim max — = 0 

n—►» k^n JD 


(5.5.3) 


则林德贝格条件也是中心极限定理成立的必要条件. 

条件 (5. 5. 3) 称 为费勒条件 . 下面考察一下费勒条件的含义. 
定理 5. S .1 费勒条件 （5. 5. 3) 等价于 

lim 圪 = oo (5.5.4) 


lim— ^ = 0 

n —D 


(5.5.5) 


[证明]若（ 5 . 5 . 3 ) 成立，则由立刻得到 

B k 矣 n B 

n n 

(5.5.5); 又若足 —5,( B<oc )，不妨假定 &>()，则因 

k ^ n B n 

故 lim max 这与 （5. 5. 3) 矛盾，因此应有 （5. 5. 4). 

反之，设 （ 5. 5. 4) (5. 5. 5) 成立.对任意 e>0, 存在正整数 M, 
便各 < e 对一切 k > M 成立.固定 M 之后，由于 （ 5. 5. 4) ， 可以选一 

B k 
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个正整数讀，， WFi 正对一切⑻均有 


max—(5.5.6) 

事实上，利用的单调不减性，对一切/ V 多 M 有 




— ^ max— 
k(M B m 


<e 


max —^ max —<s 

M<h^nB n M<k^nB k 

因此 （5. 5. 6) 成立，这就证得了 （5. 5. 3) ，定理证毕. 

量#可以看作是分量6对总和的贡献，因此费勒条件相 

B n 

当于 说:总 和是大量“可忽略的”分量之和. 

下面我们转人证明主要定理. 

二、林德贝格-费勒定理 

为了不打断主要定理的证明，我们把在定理证明中要用到的 
若干事实，以引理的形式给岀. 

引理 5.5.1 对 7 i = l , 2,…及任意的 


■1 


i 尤 


( W 1 

( 汀一 1)! 




\t\ n 


(5.5.7) 


[证明]记 


^(0= e u -l- 


i 尤 


⑺广 


! (打 -1)! 


先设 f>0, 由于 

g x (t) = if e h dx 
J o 

因此 I & ⑴ I 幻，其次，对 w>l 


(5.5.8) 


g n U ) = ij o g n . Md x 


(5.5.9) 
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用归纳法即得 （5.5.7). 

由于 I 仏 ⑴I = \ g n (0 丨，因此 （5. 5. 7) 对 K 0 也成立 .f = 0 结论 
显然成立. 

特别地，我们要用到 

IH 2 

le u - l-ul (5.5.10) 

* 2 丨, | 3 

e u — 1 — if +— ^ —— — (5.5.11) 

类似地可以得到，对 DO 

1 一 cos t = [ s in xdx ^ f I sin x I dx ^ f xdx = 

Jo J o J o 2 

(5.5. 12) 

这式两边都是 £ 的偶函数，故显然对^0也成立. 

引理 S . S .2 对于任何满足 1%1 在1 R \ b k \^l (灸=1,2,…， 
〃） 的复数，有 

n 

I w … a n - 6,6 2 ***6 n \ ^： ^ \ a k - b k \ (5. 5. 13 ) 

k = 1 

[证明]显然 

a j fl 2 一厶 1厶2 = ( — + ( a 2 — 6 2 ) 6^ 

因此 

I a l a 2 - b l b 2 I ^ I a , -6, I + I a 2 - b 2 I 
用归纳法即得 （5.5.13) 

引理 5. S .3 若史（0是特征函数，则也是特征函数，特 

别地 

le v ( t )_1 l^l (5.5. 14) 

[证明]定义随机变量 

乃=匕十匕+…+^ 

其中6，…相互独立，均有特征函数 <P(t)，v 服从参数 A = 1的 
泊松分布，且 与诸么 独立，不难验证77的特征函数为 e ^ 0 - 1 ，由特 
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征函数的性质即知 （5.5.14) 成立. 

现在叙述并证明主要的结果. 

定理 S . S .2 对 （5.5.1) 中定义的和数成立 

<戈| =丄厂 e' t2/2 dt (5.5. 15) 

"^ 00 V^hoc 

与费勒条件 (5. 5. 3) 的充要条件是林德贝格条件 （5. 5. 2) 成立. 
[证明]为书写方便起见,我们引用记号 



€ k~ a k 

“一 B 

ft 


(5.5. 16) 

显然 

D^ k 

也 =0, DL : 专 

:瓦 

(5.5. 17) 


n 1 n 

X = ^2 X 二 

k=l k=l 

1 

(5.5. 18) 

以乂 & 0)及匕 

分别表示么 & 的特征函数与分布函数，那么 


F nk ( X )= P ^ B <^j = F k ( B n X + a k ) 

(5.5. 19) 


这时 


士 f ( x - a k ) 2 dF k (x) 

^ n J 丨 *-。* 1 >^ B n 

:/| 补 (〒卜 ） 

= f : K 2 d/^(y) 

J I yl > r 

因此林德贝格条件 （5.5.2) 化为： 对任意 T >0， 

n 

lim Y f x 2 df nk (x) =0 (5.5.20) 

n ^°° kt\J \x\ >T 

现在开始证明定理.设 £ 是任意固定的实数. 

为证 （5.5. 15) 必须证明，当 * 时 
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九⑴…/ 抓⑴ — e _ <2/2 (5.5.21) 

我们先证明，在费勒条件 （5. 5. 3) 成立的假定下 ,(5.5.21) 与下式 
是等 价的： 

T (fnkiO - 1 ) + 七 2 — 0 (5. 5. 22) 

4 = 1 Z 

事实上，若 (5. 5. 3) 成立，是对任意£>0,只要; I 充分大，均有 
b k 

B n 

另一方面，由 （5.5. 10) 可知存在复数0，使得 

e itx - l-itx = 0^- 9 101^1 (5.5.23) 


因此 

LM - 1 
再由 （5.5. 17) 可得: 

I/JO - 1 I 


^ nk =^ff x 2 dF nk ( x ) 


2 J - 0 


Or 

~2 


•2 


f x 2 dF nk ( x ) 

J — 00 


^ yj x 2 dF nk (x) 
t 2 f>l 1 2f2 

= - - r < —e t 

2 B 2 2 


(5.5.24) 


对任意 S >0 ，只要 Iz I 充分小，就可以有 

\ e 2 - l - z \< 8 \ z \ (5.5.25) 

因此由引理 5. 5. 3、引理 5. 5. 2 及 （5. 5. 24)、（5. 5. 25), 只要打充 
分大，就有 



以 ⑴ -u 


-乂 ! ⑴…九 ⑴I 


^ I I -兌⑴ I 

A = 1 
n 

彡 C I L ⑴ - 1 I 

k = i 
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b \ 1 . 

^7 = (5. 5. 26) 

因为 S 可以任意小，故左边趋于0,因此证得 （5. 5. 21) 与 （5. 5. 22) 
的等价性. 

接着证明定理的充分性.先证由林德贝格条件可以推出费勒 
条件.事实上， 

备 = J y dF nk ( x ) 



=\ x 2 dF nk (x) + [ x 2 dF nk (x) 

J I x\ J \ »\ >7 

n 

^ T 2 + y( x 2 dF nk (x) ( 5 . 5 . 27 ) 

l c=l J \ x\ >T 

右边与 A 无关，而且 T 可选得任意 地小； 对选定的 T , 由林德贝格 
条件 （5.5.20) 知道第二式当〃足够大时也可任意地小.这样，费 
勒条件成立. 

其次证明林德贝格条件能保证 (5. 5. 15) 成立.注意到 （5. 5. 17) 
及 (5.5. 18)，可知 

X [乂* ⑴ _ 1 ] + 如 2 

A = 1 Z 


n _ 

lj [ e ^ 


1 - itx + 


警 1 (⑷ 


利用 （5.5. 11), 当 时, 

,tx -1- itx +- 


2 


rUlV 
6 6 


又利用 （5.5.10), 当 M > T 时， 




2 


彡 I e ltx -1 -itx I +—— 


因此 
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^ if ± f 

kTl J \ x\^T O ^ J \ x \ >T 

x 2 dF nk ( x ) + t 2 ±\ x 2 dF nk ( x ) 

= y f x 2 dF nk ( x ) (5.5.28) 

O jfTi J 1*1 >r 

对任给 s > o , 由于 T 的任意性，可选得使 <| •，对 选定的 T ， 
用林德贝格条件知只要 n 充分大，也可使 t 2 f \ x 2 dF nk ( x ) 

k = l J I*' >r 

< y , 因此我们已证得了 （5.5. 22), 但由于我们已证过费勒条件 

(5.5.3) 成立，这时 （5.5.22) 与 （5.5.21) 是等价的，因而 
(5.5.21) 也成立，根据特征函数连续性定理可知 （5.5. 15) 成立. 
再证定理的必要性. 

由于 （5. 5. 15) 成立，因此相应的特征函数应满足 （5. 5. 21). 
但在费勒条件成立时，这又推岀 （5. 5. 22) ,因此 

X [乂 * ⑴ ~ 1 ] + " y " 

k = 1 L 

=- 1 + 男 dF nk ( x )-^0 (5.5.29) 

因为由 （5. 5. 12) 可得 cos 以- 1+#多0,因此上述被积函数的实部 
是非负的，故 

M|L[，- i+ ¥] dFM ) 

= Z / ^ [ C0S ^ - 1 + 1 ~y\ dF nk( X ) 

' I 丄 |>T [cos 以一 1+字] dLU ) 广 
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^ if (^- 2 ) dF nk (x) 

kT\ J \x\ >T\ Z / 

f ⑽ » - 2 玄 f dF nk (x) 

^ i = 1 •» I *1 > r 4 = 1 •» I *1 > r 

^ (-^-2 ri If ^ 2 dF nft (^) (5.5.30) 

V 2 / ^Tl J \X\ >T 

因为对任意 T >0, 可找到 t ， 使 4-2 厂 2 >0,这时由 （5. 5. 29)， 
(5.5.30) 可得 

V Z / jfcTi J 1 *1 > t 

故林德贝格条件成立,定理证毕. 


三、若干推论 


林德贝格条件给出了中心极限定理成立的普遍条件，由它可 
以推出许多特殊的结果. 

首先，我们来说明独立同分布场合的林德贝格-莱维定理是 
定理 5. 5. 2的 特例. 

若，…是独立同分布随机变量序列， E &= a ，0<(7 2 = 
呢<00，则 


这时 


B n 


-^/nc 


(5.5.31) 


士土丨 (x - a k ) 2 dF k (x) 

t > n k=\ J > rB n 




(x - a) 2 dF(x) 

> ray/n 


(5.5.32) 


由于方差 0< O " 2 <00 ，上式右边的积分当 71—00 时趋于0,故林德贝 
格条件得到满足，所以中心极限定理成立. 

下面我们再来给岀两个有用的结果. 
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定理 s . 5. 3若 U 2 ，…是独立随机变量序列，存在常数心， 

打 =1 ， 2 ,…），且 lim & 


使 max If .l = 1，2,…），且 lim 则 

1 ft—►« /) 

n 

pi 专 k 一 a k 


< X； 


. e~ t2/2 dt 


… B n —J ^ 

[证明]由假定，对任意的 s >0, 只要； i 充分大就有2心< 
^ B n ，显然 

If 厂 a ; l $2K n ， >=1,2,… ， 7i 

因此 

I lf r a y l ^^„| =n (5.5.33) 

所以 


f 


B 2 n fr[Ju-o 


,1 ^eB„ 


[x - aj) 2 dFj(x) 


=巧走 | j _ 少-〜”巧⑷二 1 

因此林德贝格条件得到满足，所以中心极限定理 成立. ^ 

定理5.5.4(李雅普诺夫）如果对相互独立的随机变量序列 
6， 匕 ，…， I ， •"能 选择这样一个 正数扒 0,使当 71—00 时， 


Bl 


+ 8 


' 专 k - a k 、 


2+5 


0 


(5.5.34) 


则 


e~ t2/2 dt 


[证明]只要验证林德贝格条件就行了.事实上， 

^土 f ( x - a k ) 2 dF k (x) 

* n k = \ J >rB n 

Bl(rB n ) s tj>rs, ' * " ' 2tSdFi(x) 

^ \ - [ \ X - a k \ 2 + 8 dF k (x) - ►O (n-^ CC 

T O n k = i j -cc 
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用定理 5.5.2 就可推得所需的结论. 


L 第五章小结] 

本章研究了极限定理，这是概率论基础中比较深入的 结果； 前 
几章学到的知识在这里得到了综合 应用； 一些重要问题在这里进 
一步讨论并获得解决. 

在我们的课程中，为了使读者对极限定理有直观的认识，是从 
伯努利试验场合开始叙述的.这里所用的工具比较初 等：伯 努利大 
数定律是用矩法证明的；棣莫弗 ••拉 普拉斯定理则通过利用斯特 
灵公式进行渐近估计而得到. 

接着我们处理独立同分布场合，这是伯努利试验的直接推广， 
也是在实际中，特别是数理统计中，最常碰到的情况.为了证明辛 
钦大数定律及林德贝格-莱维定理已用到特征函数，所用的方法 
具有普遍性及简明性，是读者比较容易理解的.应当指出，收敛性 
概念及特征函数的连续性定理是深入研究极限理论所不可缺少 
的，所以对这部分内容我们预先作了相当详细的 叙述. 后面用到的 
主要是结论，因此有关证明在初学时不妨略去. 

最后，介绍了强大数定律及一般场合的中心极限定理，这是概 
率论中相当深刻的结果.前者的证明通过建立比切比雪夫不等式 
更为锐利的不等式而 实现； 后者的证明则得力于特征函数这一有 
力的工具的巧妙应用.到此为止，概率论中提出的古典极限定理问 
题已获得了令人满意的解决. 

本章对极限定理的处理采用模块式结构，即分伯努利试验、独 
立同分布、一般等三个场合进行，与历史发展大致平行，这样设计 
的目的一是体现循序渐进、由浅入深，二是让本书能更好地适应不 
同教学 要求. 

纵览整个发展过程，令人印象深刻的是，经典问题的最终解 
决，主要靠工具的改进，从直接展开，到矩法，再到特征函 数法； 也 
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靠方法的精密化，例如从切比雪夫不等式，到马尔可夫不等式，再 
到科尔莫戈罗夫等更精细的不等式. 

独立同分布模型事实上成为概率论继古典概型、伯努利概型 
之后的第三个重要概型，直至近代才让位于随机过程. 


I 习题五 


1. f 为非负随机变量，若 [一 <« , u >0), 则对任意$>0， 

P\^x\ ^e~ ax Ee a( . 

2. 若 M 为随机变量，且，则关于任何 C >0, 

P\h(^)^C\ V l Eh(f). 

•3. (单边切比雪夫不等式）设 f 为随机变量， £：f = 0, Z ^ = (7 2 <oo ,则对 
任何一个 a >0, 试证 

P \^ a \ 

a +a 


4. 设 I 匕 , 71 ^ 1 ] 是独立随机变量序列，对所有存在且_^->0, 

n 

试证服从大数定律. 

V1° ^ - v ^ 

5. 若^的分布列为 T T -，试证大数定律适用于独立随 

T T 

机变量序列 lf A l . 

6. 验证概率分布如下给定的独立随机变量序列是否满足马尔可夫 条件： 


(1) P \ X k = ±2 k \=^-； 

(2) PU, = ±2*| =2' (2<t+1) , PU,=0| =l-2 - n ； 

(3) P \ X k = ± k \ =+*■+， P \ X k = 0\ = l - k ~ T . 

7. 若 6 具有有限方差，服从同一分布，但各 & 间，匕和有相关，而 

多 2) 是独立的，证明这时对大数定律成立. 

8. (伯恩斯坦定理）已知随机变量序列 &, f 2 , …的方差 有界: /> 匕在 并 
且当 — od 时，相关系数0,证明对成立大数定律. 
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•9. (格涅坚科定理）对随机变量序列 1匕| ，若记7?„=丄(^".+“），\ = 

n 

1(枝十" + 托 „)，则服从大数定律的充要条件是 

71 

limE [ (^ 2 1.1 =0 
一 [l + (Vn- a n) J 

10. 用斯特林公式证明：当 ra—>oo , m —►» > oo ，而^― ►() 时， 

n 


( 2n W 丄 、'丄 A 

\ n-m) l 2 / yfrm 

11. 用 （5.1.27) 计算 6(5;500,0.01) 及 6(40; 10000,0. 005) 并与精确值 
比较. 

12. 某计算机系统有120个终端，每个终端有5%时间在使用，若各个终 
端使用与否是相互独立的，试求有10个或更多终端在使用的概率. 

M 3. 求证，在^>0时，有不等式 



14. 用棣莫弗-拉普拉斯定理证明，在伯努利试验中，若 0< P <1 ，则不管 
是如何大的常数，总有 

P\ \fi n -np\ <K\ —^0 ( n—^oo ) 

15. 用切比雪夫不等式确定当掷一均匀铜币时，需投多少次才能保证使 
得正面出现的频率在 0.4 至 0.6 之间的概率不小于90%，并用正态逼近计算 
同一问题. 

16. 用切比雪夫不等式及棣莫弗-拉普拉斯极限定理估计下面 概率： 

p { ^~ p ^ e j 

并进行比较.这里是《次伯努利试验中成功总次数， P 为每次成功的概率. 

17. 现有一大批种子，其中良种占1/6,今在其中任选6000粒，试问在这 
些种子中良种所占的比例与1/6之差小于1%的概率是多少？ 

18. 种子中良种占1/6,我们有99%的把握断定在6000粒种子中良种所 
占的比例与1/6之差是多少？这时相应的良种粒数落在哪个范围内. 

19. 若飞机乘客购票后按期搭机的概率为/>，各乘客的行动假定是独立 
的，试问一架200座飞机售出202张机票不发生超座的概率.对 p = 0.97, 
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0.96,0. 95,计算上述概率. 

*20. 设分布函数列 | F n U ) 丨弱收敛于连续的分布函数 F ( x ) ，试证这收 
敛对 xeR 1 是一致的. 

*21. 设1厂(4 1为一列正态分布函数，收敛于分布函数 F ( x ) ，试证 
也是正态分布函数. 

*22. 试证若正态随机变量序列依概率收敛，则其数学期望与方差也收敛. 


*23. 若夂为多维正态随机向量 ，夂 试证 X 为正态向量. 



0 n 

24. 若&的概率分布为 

i--L J- 

re n 


，试证相应的分布函数列收 


敛,但矩不收敛. 


•25. (斯卢茨基）随机变量序列具有分布函数列，且 F n ( x ) 
~^ U )， 又丨依概率收敛于常数（:>0,试证：（1)么的分布函数收 


敛于;(2)么=1的分布函数收敛于 F ( Cx ). 

Vn 

*26. 试证：（1)夂二 Z => 夂 - X 二0; 

(2) X n ^X 1 X n ^Y^>P\X=Y\ =1 ； 

(3) X n -^ X ^ X n - X m -^0( n t m -， co )； 

(4) X n ^ XJ n ^ Y ^ X n ± Y n 4j±y ； 

(5) X n 二 X，k 是常数 二 kX ' 

(6) X n 4z=>4J 2 ； 

(7) 夂二二 6, a ，6 是常数 =>H 二 

(8) 夂二 14: 1 4l ； 

(9) 义二二 6， d ，6 是常数 二 ab _ l ; 

( 10 ) 夂是随机变量 

(11) X n ^X f Y n ^Y^XJ n ^XY. 

27 .设夂二 Z , 而 g 是 R 1 上的连续函数，试证 g { X n )^ g { X ). 
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28. 若 1 是单调下降的正随机变量序列，且夂 — 0, 试证夂 —0. 

29. 若1 ，& ，…是独立随机变量序列，其特征函数均为 < pit 、 是整值 
随机变量, = M = P *, 且与 U f t 独立，求^1+4 +…的特征函数 • 

30. 若/(0是非负定函数，试 fi ^ U )/(0) 是实的，且/(0)多0;(2)/(-0 

=7(0 ；(3) i/(o i ^/( o ). 

31. 某理发店为每个顾客的服务时间服从均值为 + ( 小时）的指数分 

布，可认为对每个顾客的服务是相互独立的. 

(1) 求为对100个顾客服务，总共需要31小时至35小时的 概率； 

(2) 以95%的概率在32小时之内可服务完几个顾客？ 

(3) 找 A , 使该店对100个顾客的服务时间在 （33.33- A ，33.33 + A ) 之间 
的概率大于95%. 

32. 若总体 f 的数学期望枝 = m , Z>f = o * 2 , 抽容量为 n 的样本，求其平均 

值 L 为使川 lf-ml<0. 1(7 1 ^95% ，问 ri 应取多大值？ 

33. 用特征函数法直接证明棣莫弗-拉普拉斯积分极限定理. 

34. 若1,2,…丨为相互独立随机变量序列，具有相同分布 

叹 = "= + ，叱 =0|= + 

而1= i 试证％的分布收敛于 [ o , i ] 上的均勻分布 • 

“ 1 2 • 

35. 用特征函数法证明二项分布的泊松逼近定理. 

36. 用特征函数法证明，泊松分布当 A — 00时，渐近正态分布. 

*37. 若 i 毛1是独立同分布随机变量序列，其分布分别为：（1) [- a , a ] 上 
均匀 分布； （2) 泊松 分布； （3) r 分布，记 

n 

- 叫） 

Y = . i^i _ 

试计算 l 的特征函数，并求 ^00 时的极限. 

38. 设 U „1 独立同分布，冽夂=2^ 21 “1 =2_ a ( 务=1,2,…），则大数定律 
成立. 

*39. 若11 丨是相互独立的随机变量序列，均服从斤(0，1)，试证 
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W n = ^ 


X , 


+ 1 


及 U n 


X , 






< + … + 忒 
渐近正态分布 iv(0,l). 

*40. 设 U 2 ，…是独立随机变量序列，均服从 [0,1] 均勻分布，令 

^ = ( fl ^)" 

1^1 

试证 z „ 二 C , 这里 C 是常数，并求 C 

*41. 若是独立同分布随机变量序列 = m ，而/(幻是一个有界的 
连续函数，试证 


limE 


/ 


'不+…+夂\1 


=/0 


*42. 若 U ; 1 是独立同分布、具有有限二阶矩的随机变量序列，试证 

• Y iX i — EX ' 

*43. 设义，&,…相互独立，均服从柯西分布/ >(4 = 1 • A , 试证它们 


TT 1+X 

不满足格涅坚科关于大数定律的充要条件（见本章习题9)，即要指出，当 

汀一>00时 


E 


(1^) 


i= 1 

*44. (维尔斯特拉斯定理的概率论证明）设 /( 幻是 [0,1] 上连续函数， 
利用概率论方法证明 ：必存 在多项式序列丨仏（幻| ,在[0，1]上一致收敛于 
fix ). (提 示: 定义伯恩斯坦多项式 

B n (x) = ，(1 -x)H) 

并利用大数定律 .） 

45. 设是独立随机变量序列，试证&二0的充要条件为对任意 

00 

^>0,有2 P | IXJ ^ ffj < oc . 

/I = 1 

46. 试证独立同分布随机变量序列，若存在有限的四阶中心矩，则强大 
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数定律成立. 

47. 本章习题6的各个独立随机变量序列是否满足强大数定律? 

48. 举例说明博雷尔-康特立引理 （ i ) 之逆不成立. 

49. 设是相互独立且具有有限方差的随机变量序列，若 


则必有 


*50. 设/(旬和 g ( x ) 在闭区间 [0,1] 上连续，且满足0矣 /( 幻 < C g ( x )， 这 
里 C 是一个正常数，则成立 



f (') +/( h ) + … 

g(Xj ) + g(« 2 ) + … 


+ /(\) 


+ g( X n) 


dx x dx 2 


… d 、 


j/(x)dx 

f g(x)dx 
J 0 


51. 设…是独立随机变量序列，对它成立中心极限定理，则对 
成立大数定律的充要条件为/>(义+〜+1)= 0 (71 2 ). 


71 

52. 设戈…是独立同分布随机变量序列，且对每一个 n = l t 

扣. 

2,〜有相同分布，那么，若^',.=0,/)义.=1，则1必须是 W (0，1) 变量. 

53. mx k \ 是独立随机变量序列，且^服从 A^(0,2-*) ，试证序列1 : 
(1) 成立中心极限 定理； （ 2) 不满足费勒 条件； （ 3) 不满足林德贝格条件，从而 
说明林德贝格条件并不是中心极限定理成立的必要条件. 

54. 若 I 1是独立随机变量序列，义服从[-1， 1] 均匀分布，对 
k = 2,3, …， X k 服从 AKOjH ), 证明对 III 成立中心极限定理但不满足费勒 
条件. 

*55. 在泊松试验中，第 i 次试验时事件 4 出现的概率为 p f , 不出现的概率 
为各次试验是独立的，以&记前〃次试验中事件4出现的次数. 试证： 
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(2) 对 1 匕丨成立中心极限定理的充要条件是 Zp 爪 =+«. 

i = l 

56. 设 U,| 是独立随机变量序列，尤服从 [U] 均匀分布，问对能 
否用中心极限定理？ 

57. 试问对下列独立随机变量序列，李雅普诺夫定理是否成立？ 



— \fk 


- k a 0 k a 

(1)^: 

1 

1 ； (2)^: 

1 1 1 


2 

2 1 

3 3 3 

58. 求 证：当 

汀一 >00 时 




,a>0. 


( 含 ) 2 rs/F 


n t nz 

zT~ l e ~dz 




*59. 独立随机变量序列 I I ，对一切以概率 j •分别取值， 

( 1 ) 试证当■时，大数定律成立； 

(2) 试利用中心极限定理证 明：当 sj •时，大数定律不 成立； 


•60. 用概率论方法证明如一时， e -” J ； 糸 — 
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全书小结 


本书从大量重复试验中事件出现频率的稳定性这一经验事实 
出发，引进了一系列概念，建立了既有广泛实际应用又有深刻理论 
结果的一整套数学 理论； 最后这个理论又令人信服地解释了作为 
出发点的经验事实，到此为止，这个课程已告一段落. 

读者可以看到，作为概率论研究对象的随机现象，在自然界和 
人类社会中是普遍存在的，这既说明了概率论理论的重要性，也决 
定了它的应用的广泛性. 

读者也可以看到，概率论是数学的一个有特色的分支.一方 
面，由于它与其他数学分支（它们都研究决定性现象）研究对象的 
不同，因此它有着别开生面的研究课题，从而也有着自己独特的概 
念与方法.另一方面，它又是一个严谨的数学分支，它的概念有明 
确的定义，它的方法是严格的，它的结果是深刻的，这是许多著名 
数学家长期耕耘的结果，也得益于不断地从其他数学分支吸取有 
用的概念与方法. ^ 

把概率论最基本的概念——事件，概率，随机变量与数学期望 
分别看作是集合，规范化测度，可测函数与可测函数关于规范化测 
度的积分,这种观点自从概率论的公理化结构体系岀现之后，已被 
普遍接受•这里强调的是概率论的测度论基础，对于概率论基本概 
念的明确定义是至关重要的. 

读者应当认识到，上述观点的形成是一个历史过程，同时也不 
应当忘记这些概念的现实背景，这时研究几个经典的模型是很有 
帮助的.历史上，古典概型、几何概率、伯努利概型等几个模型孕育 
了早期的概率论，对后来的发展也有重大影响.即使在今天，这些 
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既直观又具体的模型也还值得我们特别注意. 

统计独立性是概率论中特有的概念，它的引进大大丰富了概 
率论的研究.概率论基础中最深人的结果大都是在独立性的假定 
下获得的，这主要是指几种形式的极限定 理：大 数定律、强大数定 
律与中心极限定理. 

条件概率是另一重要概念,它使我们能充分利用有关的信息, 
在概率计算中十分有用.当进一步研究非独立的场合时，条件概率 
将起更大的作用. 

随机变量概念的普遍使用相对来讲还是近代的事，但是这个 
概念是很自然的，又便于运算，用它来描述事件有不少好处.涉及 
随机变量的最重要问题中大多数可以通过分布函数来表述，概率 
论的这一部分可以独立于它的测度论基础而进行，这里所用的主 
要是分析方法. 

一种分布就是一个数学模型，每种分布有自己的 特征; 分布之 
间有各种联系.书中把分布按重要性分成三类 ：第一 类三大分布有 
专门的节加以 介绍； 第二类包括十几种重要分布，在正文中指明其 
背景、性质以及它与其他分布的 关系； 第三类则多数在例题或习题 
中出现.最后它们大多在附录四中汇总. 

数学期望是概率论中最古老的概念，它的明确的直观含意和 
良好的数学性质使它在概率论中一直占据着重要的地位，各种重 
要的数字特征大都是某种数学期望，甚至概率也是一种数学期望. 
数学期望，以及与它相辅相成的方差，刻画了随机变量的概貌，是 
实际应用中最关心的两个量. 

在多维场合，随机向量由多元联合分布完整描述，用均值向量 
和协方差矩阵刻画概貌，而边际分布、条件分布、独立性和相关系 
数等概念更是丰富了研究主题. 

极限定理是概率论中最重要的理论结果，本书通过模块式的 
三个层次介绍了经典结果，相当详尽.主要假设是独立性和矩的存 
在，而分布函数、矩和特征函数这三者则是解决古典极限定理的主 
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要 工具. 

总的说来，本书通过经典模型来提供有关背景,釆用公理化结 
构以明确定义概念，强调独立性以突出学科的特点,利用分析方法 
来获得深刻的结果，最后也是最重要的一点是，试图通过大量的实 
例来介绍概率论的日益广泛的应用. 

正如本书的书名所指出的，这些知识仅仅是概率论的基础，它 
们是新的研究的出发点. 
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有关章节 

三 §1; 四 §5; 五 
§1,§2,§3. 

二 ri 

cco COO • 

111 -你 

c^r ^ w 

4" 

11 S 

一 §3; 二 §3, 
§4; 三 §1; 四 
§1, §2, §4, 
§5; 五 §1. 

二 §4; 三 §1; 
四 §1， §2, 

§4, §5. 

特征函数 

o 

.n 


*%> 

m 

o 



*< 

数学期望 

O 




概率分布或密度函数 /> u ) 

Pc=l 

( C 为常数） 

ftn 

O — 1 

II II — 

女女 II 

^ ftn ^ 

V 

" C, 

^ V 

o 

b(k ； n t p) = p k q n ~ k 

k = 0 , 1 ，…， /i 

0 〈 / ><1 ，殳 =l-p 

P ( h 入 )= ^"e _A ，A = 0,1,2,… 

A > 0 

分布名称 

m 

2 ^ 
ig> 

•m 眩 

-x— 

二 项分布 
B(n t p) 

S 


si 
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有关章节 

三 §1 ， §2, §3; 

四 §1, §2, §3, 
§5, §6 ;五 §1, 
§3, §5. 

一 §4; 三 §1, 
§2, §3 ;四 §1 ， 
52, S3 ; 五 §3. 

三 51; 四 §1, 
§2, §3, §5 ； 
五 §2. 

三 §3. 

四 §5, §6. 

五 §2. 

C^> 

coo 

—m 

•oo «oo 

in m 

特征函数 



it ( b - a ) 


1 

1 

k 

i 

i 



I 

rJ 

— 

■ 


■ 

数学期望 




■ 


■ 

概率分布与密度 函数 〆 幻 

f \ 1 X 2 

p ( x )- _ e 2o - 2 

-00 <«<00 ，从 ,a>0, 常数 

k 其他 

a <6, 常数 

A > 0, 常数 

c 

/ 

i 

ejr 

A (f 厂 

■0, a: < 0 

n 正整数 

• 

P ( x ) = jr(r) 

lo , x < 0 

r > 0,A > 0 常数 

II 

H 

分布名称 

正态分布 
(髙斯分布) 

均匀分布 
V[aM 

捽 - 

毅 《 

W 

% 

r 分布 
T(r,A) 
r 为正整 
数时称埃 
尔朗分布 


s 
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有关章节 

… • 

⑺ — 

COT eoo 

in m 

coo 

111 

习题四. 

ro 

coo 

HI 

特征函数 

-< 

i 




m 

不存在 

JL 7 ： (n> 2 ) 

n-2 

(r>2 时存在） 

2k\{k x +k 2 -2) 
k'(h -2)\k 2 -4) 
(k 2 > 4) 

数学期望 

不存在 

0( /i>l) 

(r>l 时 
存在） 

cs cs 
^ 丨 A 

概率分布与密度函数 p (幻 

/ 、 1 A 

-00 < * < 00 ,A > Oyfl 常数 

^2 -( B+1 )/2 

(f) (1+T) 

) < JC < 00 

t 正整数 

M 士 ， X ^ A 

X 

0, x<A 

r>0 f A >0 

v z / l f *,/2, V 2 

啦 m) 1 … 

x ^ /2 - 1 

(k^x)^^ 2 ^ 0 
.0, x<0 

灸，， a ； 2 正整数 

C u » K 

t ll ' 

II 

X 

p ( x ) = 

p ( x )=< 

分布名称 

柯西分布 

f 分布 

帕雷托分布 

F 分布 
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索 引 

(汉语拼音为序) 


* * 分布 387-391 
( n ^ P ) 53,63,119,142,158,165,247 

方案 99 

(联合）分布函数 143 

(随机）试验 9 

1 A 116,186,213,273,276 
r 分布 140,182,249,257 
o ■域 44 

尤 2 分布 162,170,182,249,257,268 
Black-Scholes 期权定价公式 275 
Bonferroni 不等式 49 

n 重伯努利试验 81 
0C 曲线 99 

r 阶收敛 313 

A 

埃尔朗 139,141,178,318 
B 

巴拿赫火柴盒问题 88 
半不变量 278 

包含 12 
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保险 100,190,288,297,298 
报童问题 197 

贝特朗 （ Bertrand ) 奇论 39,42,183 

贝叶斯公式 69 

贝叶斯决策 72 

贝叶斯学派 72 

必然事件 3,12,45,129 

边际（分布）密度函数 148 

边际分布 146 

边际分布函数 148 

标准差 201 

标准化 203 

标准正态分布 131 

并 13 

波赫纳尔-辛钦定理 315 

波利亚 65,283 

波利亚坛子模型 65 

伯努利 8,80,92,281 

伯努利大数定律 285 
伯努利分布 83,124,186,202,243 

伯努利概型 8,81,83 

伯努利试验 81,280 

泊松 8,102,104,286 
泊松逼近 102,243 
泊松大数定律 286 

泊松分布 103，125,187,202,240,241,249,256 
泊松过程 107,138-140,318 
博雷尔（可测）函数 158,174,195,198 
博雷尔 46,282,335 



博雷尔点集 46,55,119,128,142,155，158,174 

博雷尔-康特立引理 331,335 

博雷尔强大数定律 335 

不放回抽样 28 

不可能事件 3,12,45,129 

不相关 209 

布尔不等式 49 

C 

彩票 23,189 

参数估计 217,287 

测度 43,61 

测度论 120,142,155,195,364 

差 13 

超售问题 2,83,100,299 

车间用电 101,299 
乘法公式 64,65 

重复独立试验 80 

重期望公式 223 

抽样调查 214 

抽样检查 18,28,84,98 

D 

大数定律 8,282,283 

单调性 49 

德 • 梅尔问题 33 

德摩根定理 13 

等待时间 141 

等待时间分布 318 
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等价 12 
棣莫弗 8,282 

棣莫弗-拉普拉斯极限定理 288 ,356 

独立和 242,251,319,345 

独立同分布 320,357 

独立性 72,79,153 
赌徒输光问题 92 

对立事件 13 • 

对偶原理 13 • 

多项分布 93,144,207,329 

多元超几何分布 144 

多元特征函数 257 
多元正态分布 146,259 
多元中心极限定理 328 

E 

二阶矩理论 225 

二项分布 29,84,94,102,124,186,202,239,241,242,248,256 

二元正态（分布）密度函数 148 

二元正态密度函数的典型分解 148 

二元正态分布 148,211 

F 

方差 201 
放回抽样 28 

非负定 206,250,262,315 

非负性 34,42,48 

费勒条•件 347 
费马 8,33,87 
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分布函数 119 

分布函数列弱收敛 302 

分布列 122 

分赌注问题 58,87 

分割 67 
分位数 222 

傅里叶变换 248,256 
复合泊松分布 246 
复随机变量 ' 247 

负相关 207 


G 

噶依克-瑞尼不等式 338 

概率 6,48 

概率的古典定义 18 

概率分布 119,122 

概率空间 54 

概率论 1，6,8,120,364 

概率论公理化结构 43,56,120,364 

高尔顿板 5,301 

高斯 8,156,222,328,345 

高斯分布 156 

估计量 32,217,322 

古典概型 18,41,42,47,56,62,364 

规范性 34,42,48 

H 

海莱定理 304 
和 13 
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后验概率 69 

互不相容 13 

回归 223,271 
会面问题 36,154 

惠更斯 8,87,92 
混合中心矩 221 

J 


几何概率 35,43,44,47,61,63,154 

积分极限定理 289 

极限定理 280 

极值分布 169 

集合 11 

加法公式 49 

假设检验 97,326 

简单随机抽样 214 

交 13 

截尾法 343 

局部极限定理 288 

矩 220 

矩法 285,356 

卷积公式 167 

决定性现象 3 

绝对矩 221 

绝对连续函数 128 

均方收敛 314 

均方误差 223 

均匀分布 129,145 

均值 186 



均值-方差模型 218 


K 

柯西-施瓦茨不等式 208,263,317 

科尔莫戈罗夫 43 

科尔莫戈罗夫不等式 340,357 

科尔莫戈罗夫的概率论公理化结构 53,120 

科尔莫戈罗夫强大数定律 341,342 

可测性 120 

可靠性理论 77 

可列可加性 42,48,52,64 

克拉默 310 

L 

拉普拉斯 8,18,32,43 ,239,282,288 ,321 

莱维 310,321,324 

莱维-克拉默定理 310 

勒贝格 43,165,314,334 

勒贝格分解 141 

离散卷积公式 160,242 

离散型随机变量 117,123 

离散样本空间 17,55 

李雅普诺夫 321,355 

连续型随机变量 128 

连续性定理 259,262,310,329,353,356 

列联表 147 

林德贝格-费勒定理 348 

林德伯格-莱维定理 324,354,356 

林德贝格条件 347 
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马尔可夫 285,287 

马尔可夫不等式 313,336,357 

马尔可夫大数定律 285 

马尔可夫条件 285 

蒙特卡罗 39,155 ,219,323,326,345 

密度函数 128,145 

摸球模型 19,28 

母函数 239 

N 

逆极限定理 308,310,322,325 
逆事件 13 

逆转公式 253,255,258 

P 

帕斯卡 8,33,87 

排队论 8,139 

匹配问题 50 

频率的稳定性 6,287,364 

频率稳定性 4,47,280,337 

蒲丰 4,37,294 
蒲丰投针 38,155,324 

Q 

强大数定律 282,335,337 

切比雪夫 204,284,286 

切比雪夫不等式 204,284,313,335 ,341,356 



切比雪夫大数定律 284 
全概率公式 68 

R 

弱收敛 303,310 

S 

熵 231 
生日问题 25 

示性函数 116,186,213,273 

事件 3,11,45 

事件的运算 12 

事件域 45,118 

试验 9,79 

收敛性 301 

数理统计 8,31,32,97,162,172,174,176,217,320,325,345 

数学期望 186,192,193,199 

数字特征 184 

顺序统计量 167 

似然函数 32,156 

随机变量 117,119,183 

随机变量的存在性定理 165 

随机过程 8,10,109,110 

随机事件 3 

随机试验 43 

随机数 39，165,175 ,219,323,326 

随机现象 3 

随机向量 142,199,205，257,328 

随机游动 88,110 
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索赔模型 246 

T 

特征函数 248,261,308,315 ,322,324,350,356,365 

条件分布 151,222,269 

条件概率 63 

条件数学期望 222 

统计独立性 72,287,365 

统计规律性 6 

统计假设检验法 97 

统计量 217,320,325 

推广的乘法公式 65 

W 

完备事件组 67 

完全负相关 209 

完全正相关 209 

唯一性定理 255 

文 （ Venn ) 图 14 

无记忆性 125,138,141 

无偏性 217 

误差 130，133，156，223,327,345 
X 

下连续的 52 

先验概率 69 

现代证券组合理论 218 
线性回归 224 

相关系数 206 
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相合性 322 

相互独立 73,75,76,80,153 
香农 226 
协方差 206 

协方差矩阵 206 

辛钦 314,321 
辛钦大数定律 321,345,356 
信号-噪声模型 216 

信息量 235 
信息论 8,238 

Y 


延森 （ Jensen ) 不等式 232 

样本 30，165，217，320，322，325，345 

样本点 9,43 

样本空间 9,44 

一般加法公式 49 

一维博雷尔 (7 ■域 46 

一维博雷尔点集 46 

依分布收敛 311 

依概率收敛 311,334 

以概率1收敛 314,332 

佚名统计学家公式 195,198,239,247 

有限可加性 48,50,52 

有限样本空间 16 

有效 218 

有效性 218 

鱼数的估计 31 

原点矩 220 
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z 


再生性 256 

整值随机变量 238 

正极限定理 308,310 
正态变量 131,267 

正态分布 131,192,203 ,252,256,259,282,345 

正态分布的导出 156 

正相关 207 

置信区间 295 ,325 
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